Новости — 2 ноября 2021, 14:27

Сбер представил ruDALL-E — нейросеть, которая генерирует изображения по описанию на русском языке

В январе этого года американская компания OpenAI представила DALL-E — нейросеть, которая генерирует изображения по текстовому описанию. Искусственному интеллекту можно загадать что угодно, даже нечто абстрактное или странное, он все-равно это нарисует. Единственный недостаток: алгоритм понимает только текст на английском языке. Разработчикам Сбера этот недостаток показался существенным. Команды SberDevices и Sber AI вместе со SberCloud взяли за основу модель OpenAI, воспроизвели код и запустили обучение собственной нейросети на платформе ML Space на базе суперкомпьютера Кристофари. Получилась ruDALL-E — отечественная версия алгоритма. 

Это первый подобный проект на русском языке. Нейросеть мультимодальная, она обучается и на картинках, и на текстах, благодаря чему может генерировать почти бесконечное количество новых изображений по конкретному заданию. Работа идет в три этапа. Сперва нейросеть «читает» текст и создает на его основе определенное число картинок. Затем в работу включается вторая нейросеть. Она выбирает из этого набора наиболее удачные и точные картинки. А третий алгоритм увеличивает изображения без потери качества. 

Изображение по запросу «Кошка, которая сделана из белого облака»
Изображение по запросу «Небо с котятами вместо звезд»

Обучение ruDALL-E длилось 23 тысячи GPU-часов. В качестве учебных материалов использовались данные из 120 млн пар текст-изображение. В итоге проект Сбера стал самым большим среди аналогичных в России и СНГ.

Зачем все это нужно на практике? Если верить сайту компании, ruDALL-E — полезный инструмент для дизайнеров любых направлений. С помощью нейросети можно проектировать интерьер, создавать стоковые картинки и векторные иллюстрации, материалы для рекламы и копирайтинга. Кроме того, ее можно использовать в области архитектурного и промышленного дизайна. Короче говоря, это крайне удобный инструмент для бизнеса. С помощью нейросети можно создать уникальную картинку под конкретное описание, а также генерировать необходимое число иллюстраций со свободной лицензией. 

Похожими проектами занимаются в американской компании Nvidia. Летом разработчики представили бета-версию приложения Canvas. Суть та же: сервис создает изображения по запросу. Только вместо текстовых вводных данных тут требуется схематичный рисунок. Фактически пользователь работает в улучшенном Paint. Он в общих чертах иллюстрирует то, что ему нужно, а нейросеть в режиме реального времени преображает его мазню и делает ее максимально реалистичной. Помимо всего прочего, живой художник может выбрать стилистику, в которой будет работать его искусственный помощник.

Фото: Pexels
Новости — 14:37, 29 апреля
Смотрим трейлер фильма «Пока небо смотрит» с Валерией Гай Германикой
Новости — 14:00, 29 апреля
«Клуб Клуб» в Москве отмечает пять лет
Новости — 13:11, 29 апреля
Вышел тизер четвертого сезона «Теда Лассо»
Новости — 21:35, 28 апреля
Лора Дерн заменит Хелену Бонем Картер в четвертом сезоне «Белого лотоса»
Новости — 20:00, 28 апреля
Леди Гага и Doechii выпустили саундтрек к фильму «Дьявол носит Prada 2»