В ноябре прошлого года Сбер представил ruDALL-E — нейросеть, которая генерирует изображения по текстовому описанию. Получился локальный аналог небезызвестной DALL-E — программы американской компании OpenAI. Она вышла чуть раньше и, несмотря на функциональность, обладала одним серьезным недостатком: не воспринимала текст на русском языке. Вот команды SberDevices и Sber AI вместе со SberCloud и решили исправить ситуацию. Взяли за основу заморскую модель, воспроизвели код и запустили обучение собственной нейросети на платформе ML Space. Теперь Сбер создал улучшенную версию ruDALL-E. Она называется Kandinsky.
Она позиционируется как самая крупная на данный момент модель генерации изображений на основе русскоязычного текста. Разработчики утверждают, что использовать нейросеть можно для создания любых картинок: от рекламных материалов до иллюстраций, от архитектурного дизайна до дизайна в области цифрового искусства.
Для повышения качества работы ruDALL-E обучили еще на 179 млн изображений. За счет этого Kandinsky может создавать картинки с произвольным соотношением сторон, производить контент лучшего разрешения, генерировать более реалистичные изображения, достоверно передавая различные текстуры и тени.
Если верить официальному сайту, Kandinsky создает изображения в три этапа. Сперва в дело вступает первая нейросеть. Она генерирует заданное количество картинок на основе текстового описания. Этим занимается непосредственно Kandinsky. Затем эстафетную палочку перенимает ruCLIP Large. Эта модель выбирает самые удачные и наиболее соответствующие заданию изображения. А третий ИИ, в свою очередь, увеличивает их в размере. В результате клиент получает высококачественные картинки с хорошей детализацией.
Как пишут разработчики, нейросеть доступна в мобильном приложении «Салют», а также на умных устройствах Sber по запросу «Включи художника».
OpenAI тем временем представила вторую версию своей модели. Она, помимо всего прочего, научилась объединять несколько изображений и дорисовывать имеющиеся. Последнюю опцию решил опробовать блогер Denis Sexy IT. Вместе с телеграм-каналом «Нейросети и Блендер» они «дорисовали» известные картины. Получилось очень реалистично. У Моны Лизы, например, появились ноги. Если не знать, что Леонардо Да Винчи написал портрет, и не заметишь разницу. А у подножия розовых гор с одноименной картины Николая Рериха возник населенный пункт.