Новости — 2 ноября 2021, 14:27

Сбер представил ruDALL-E — нейросеть, которая генерирует изображения по описанию на русском языке

В январе этого года американская компания OpenAI представила DALL-E — нейросеть, которая генерирует изображения по текстовому описанию. Искусственному интеллекту можно загадать что угодно, даже нечто абстрактное или странное, он все-равно это нарисует. Единственный недостаток: алгоритм понимает только текст на английском языке. Разработчикам Сбера этот недостаток показался существенным. Команды SberDevices и Sber AI вместе со SberCloud взяли за основу модель OpenAI, воспроизвели код и запустили обучение собственной нейросети на платформе ML Space на базе суперкомпьютера Кристофари. Получилась ruDALL-E — отечественная версия алгоритма. 

Это первый подобный проект на русском языке. Нейросеть мультимодальная, она обучается и на картинках, и на текстах, благодаря чему может генерировать почти бесконечное количество новых изображений по конкретному заданию. Работа идет в три этапа. Сперва нейросеть «читает» текст и создает на его основе определенное число картинок. Затем в работу включается вторая нейросеть. Она выбирает из этого набора наиболее удачные и точные картинки. А третий алгоритм увеличивает изображения без потери качества. 

Изображение по запросу «Кошка, которая сделана из белого облака»
Изображение по запросу «Небо с котятами вместо звезд»

Обучение ruDALL-E длилось 23 тысячи GPU-часов. В качестве учебных материалов использовались данные из 120 млн пар текст-изображение. В итоге проект Сбера стал самым большим среди аналогичных в России и СНГ.

Зачем все это нужно на практике? Если верить сайту компании, ruDALL-E — полезный инструмент для дизайнеров любых направлений. С помощью нейросети можно проектировать интерьер, создавать стоковые картинки и векторные иллюстрации, материалы для рекламы и копирайтинга. Кроме того, ее можно использовать в области архитектурного и промышленного дизайна. Короче говоря, это крайне удобный инструмент для бизнеса. С помощью нейросети можно создать уникальную картинку под конкретное описание, а также генерировать необходимое число иллюстраций со свободной лицензией. 

Похожими проектами занимаются в американской компании Nvidia. Летом разработчики представили бета-версию приложения Canvas. Суть та же: сервис создает изображения по запросу. Только вместо текстовых вводных данных тут требуется схематичный рисунок. Фактически пользователь работает в улучшенном Paint. Он в общих чертах иллюстрирует то, что ему нужно, а нейросеть в режиме реального времени преображает его мазню и делает ее максимально реалистичной. Помимо всего прочего, живой художник может выбрать стилистику, в которой будет работать его искусственный помощник.

Фото: Pexels
Кино — 13:26, 23 августа
Короче, часть первая: неидеальные куклы, деревенский колдун, трагедия цензуры и Янковская mothering
Новости — 20:48, 22 августа
Трэмелл Тиллман присоединился к касту фильма «Человек-паук: Совершенно новый день»
Новости — 16:30, 22 августа
Фестиваль World Fashion Shorts представит новую программу короткометражных фильмов о моде
Новости — 16:27, 22 августа
В сети появились первые кадры байопика «Амадей» с Уиллом Шарпом
Новости — 14:35, 22 августа
Джастин Бибер начнет выпускать мебель