Новости — 15 июня 2022, 12:01

Сбер выпустил Kandinsky — нейросеть для генерации изображений по текстовому описанию

В ноябре прошлого года Сбер представил ruDALL-E — нейросеть, которая генерирует изображения по текстовому описанию. Получился локальный аналог небезызвестной DALL-E — программы американской компании OpenAI. Она вышла чуть раньше и, несмотря на функциональность, обладала одним серьезным недостатком: не воспринимала текст на русском языке. Вот команды SberDevices и Sber AI вместе со SberCloud и решили исправить ситуацию. Взяли за основу заморскую модель, воспроизвели код и запустили обучение собственной нейросети на платформе ML Space. Теперь Сбер создал улучшенную версию ruDALL-E. Она называется Kandinsky. 

Она позиционируется как самая крупная на данный момент модель генерации изображений на основе русскоязычного текста. Разработчики утверждают, что использовать нейросеть можно для создания любых картинок: от рекламных материалов до иллюстраций, от архитектурного дизайна до дизайна в области цифрового искусства. 


Для повышения качества работы ruDALL-E обучили еще на 179 млн изображений. За счет этого Kandinsky может создавать картинки с произвольным соотношением сторон, производить контент лучшего разрешения, генерировать более реалистичные изображения, достоверно передавая различные текстуры и тени.

Если верить официальному сайту, Kandinsky создает изображения в три этапа. Сперва в дело вступает первая нейросеть. Она генерирует заданное количество картинок на основе текстового описания. Этим занимается непосредственно Kandinsky. Затем эстафетную палочку перенимает ruCLIP Large. Эта модель выбирает самые удачные и наиболее соответствующие заданию изображения. А третий ИИ, в свою очередь, увеличивает их в размере. В результате клиент получает высококачественные картинки с хорошей детализацией.

Как пишут разработчики, нейросеть доступна в мобильном приложении «Салют», а также на умных устройствах Sber по запросу «Включи художника».

OpenAI тем временем представила вторую версию своей модели. Она, помимо всего прочего, научилась объединять несколько изображений и дорисовывать имеющиеся. Последнюю опцию решил опробовать блогер Denis Sexy IT. Вместе с телеграм-каналом «Нейросети и Блендер» они «дорисовали» известные картины. Получилось очень реалистично. У Моны Лизы, например, появились ноги. Если не знать, что Леонардо Да Винчи написал портрет, и не заметишь разницу. А у подножия розовых гор с одноименной картины Николая Рериха возник населенный пункт. 

Фото: Кадр из мультсериала «Симпсоны»
Новости — 19:00, 2 апреля
«Пикник "Афиши"» пройдет в Москве и Санкт-Петербурге
Новости — 17:30, 2 апреля
Верните мой 2007-й: ARUSTAMOV снял ситком в качестве промо к релизу «Кроме тебя»
Новости — 16:00, 2 апреля
Объявлен каст фильмов Сэма Мендеса о группе The Beatles
Новости — 14:00, 2 апреля
Сиквел «Короля и Шута» выйдет в начале 2026 года
Новости — 12:00, 2 апреля
Мэрил Стрип может озвучить льва Аслана в новых «Хрониках Нарнии»