Новости — 15 июня 2022, 12:01

Сбер выпустил Kandinsky — нейросеть для генерации изображений по текстовому описанию

В ноябре прошлого года Сбер представил ruDALL-E — нейросеть, которая генерирует изображения по текстовому описанию. Получился локальный аналог небезызвестной DALL-E — программы американской компании OpenAI. Она вышла чуть раньше и, несмотря на функциональность, обладала одним серьезным недостатком: не воспринимала текст на русском языке. Вот команды SberDevices и Sber AI вместе со SberCloud и решили исправить ситуацию. Взяли за основу заморскую модель, воспроизвели код и запустили обучение собственной нейросети на платформе ML Space. Теперь Сбер создал улучшенную версию ruDALL-E. Она называется Kandinsky. 

Она позиционируется как самая крупная на данный момент модель генерации изображений на основе русскоязычного текста. Разработчики утверждают, что использовать нейросеть можно для создания любых картинок: от рекламных материалов до иллюстраций, от архитектурного дизайна до дизайна в области цифрового искусства. 


Для повышения качества работы ruDALL-E обучили еще на 179 млн изображений. За счет этого Kandinsky может создавать картинки с произвольным соотношением сторон, производить контент лучшего разрешения, генерировать более реалистичные изображения, достоверно передавая различные текстуры и тени.

Если верить официальному сайту, Kandinsky создает изображения в три этапа. Сперва в дело вступает первая нейросеть. Она генерирует заданное количество картинок на основе текстового описания. Этим занимается непосредственно Kandinsky. Затем эстафетную палочку перенимает ruCLIP Large. Эта модель выбирает самые удачные и наиболее соответствующие заданию изображения. А третий ИИ, в свою очередь, увеличивает их в размере. В результате клиент получает высококачественные картинки с хорошей детализацией.

Как пишут разработчики, нейросеть доступна в мобильном приложении «Салют», а также на умных устройствах Sber по запросу «Включи художника».

OpenAI тем временем представила вторую версию своей модели. Она, помимо всего прочего, научилась объединять несколько изображений и дорисовывать имеющиеся. Последнюю опцию решил опробовать блогер Denis Sexy IT. Вместе с телеграм-каналом «Нейросети и Блендер» они «дорисовали» известные картины. Получилось очень реалистично. У Моны Лизы, например, появились ноги. Если не знать, что Леонардо Да Винчи написал портрет, и не заметишь разницу. А у подножия розовых гор с одноименной картины Николая Рериха возник населенный пункт. 

Фото: Кадр из мультсериала «Симпсоны»
Образ жизни — 12:21, 23 ноября
Что бы посмотреть? «Контакты. Игра», «Читатели» и другие новые шоу
Новости — 16:05, 22 ноября
Стивен Кинг анонсировал новую книгу — в ней вернется Холли Гибни
Новости — 13:40, 22 ноября
Новый роман по «Ведьмаку» будет про юного Геральта
Кино — 13:10, 22 ноября
«Сердце должно гореть у всех». Олег Савостюк — о сериале «Дайте шоу», парадоксальности страхов и воспитании внутреннего критика
Новости — 11:31, 22 ноября
Электроника и этно-мотивы: дуэт LAVBLAST выпустил второй альбом More