Новости — 15 июня 2022, 12:01

Сбер выпустил Kandinsky — нейросеть для генерации изображений по текстовому описанию

В ноябре прошлого года Сбер представил ruDALL-E — нейросеть, которая генерирует изображения по текстовому описанию. Получился локальный аналог небезызвестной DALL-E — программы американской компании OpenAI. Она вышла чуть раньше и, несмотря на функциональность, обладала одним серьезным недостатком: не воспринимала текст на русском языке. Вот команды SberDevices и Sber AI вместе со SberCloud и решили исправить ситуацию. Взяли за основу заморскую модель, воспроизвели код и запустили обучение собственной нейросети на платформе ML Space. Теперь Сбер создал улучшенную версию ruDALL-E. Она называется Kandinsky. 

Она позиционируется как самая крупная на данный момент модель генерации изображений на основе русскоязычного текста. Разработчики утверждают, что использовать нейросеть можно для создания любых картинок: от рекламных материалов до иллюстраций, от архитектурного дизайна до дизайна в области цифрового искусства. 


Для повышения качества работы ruDALL-E обучили еще на 179 млн изображений. За счет этого Kandinsky может создавать картинки с произвольным соотношением сторон, производить контент лучшего разрешения, генерировать более реалистичные изображения, достоверно передавая различные текстуры и тени.

Если верить официальному сайту, Kandinsky создает изображения в три этапа. Сперва в дело вступает первая нейросеть. Она генерирует заданное количество картинок на основе текстового описания. Этим занимается непосредственно Kandinsky. Затем эстафетную палочку перенимает ruCLIP Large. Эта модель выбирает самые удачные и наиболее соответствующие заданию изображения. А третий ИИ, в свою очередь, увеличивает их в размере. В результате клиент получает высококачественные картинки с хорошей детализацией.

Как пишут разработчики, нейросеть доступна в мобильном приложении «Салют», а также на умных устройствах Sber по запросу «Включи художника».

OpenAI тем временем представила вторую версию своей модели. Она, помимо всего прочего, научилась объединять несколько изображений и дорисовывать имеющиеся. Последнюю опцию решил опробовать блогер Denis Sexy IT. Вместе с телеграм-каналом «Нейросети и Блендер» они «дорисовали» известные картины. Получилось очень реалистично. У Моны Лизы, например, появились ноги. Если не знать, что Леонардо Да Винчи написал портрет, и не заметишь разницу. А у подножия розовых гор с одноименной картины Николая Рериха возник населенный пункт. 

Фото: Кадр из мультсериала «Симпсоны»
Новости — 16:50, 19 сентября
Кинофестиваль «Маяк» объявил конкурсную программу
Новости — 14:45, 19 сентября
«Стальное сердце», «Майор Гром» и TIOT. Рассказываем, как прошел второй «Фандом Фест»
Новости — 12:25, 19 сентября
Цирк, балет и музыка: «Яндекс» и Imperial Orchestra покажут мистическое шоу по мотивам «Щелкунчика»
Новости — 19:13, 18 сентября
«Эмили в Париже» продлили на 5-й сезон
Кино — 19:04, 18 сентября
Как вынести креатив из мастерских в пространство города? Рассказывает руководитель Агентства креативных индустрий Гюльнара Агамова