Новости — 2 ноября 2021, 14:27

Сбер представил ruDALL-E — нейросеть, которая генерирует изображения по описанию на русском языке

В январе этого года американская компания OpenAI представила DALL-E — нейросеть, которая генерирует изображения по текстовому описанию. Искусственному интеллекту можно загадать что угодно, даже нечто абстрактное или странное, он все-равно это нарисует. Единственный недостаток: алгоритм понимает только текст на английском языке. Разработчикам Сбера этот недостаток показался существенным. Команды SberDevices и Sber AI вместе со SberCloud взяли за основу модель OpenAI, воспроизвели код и запустили обучение собственной нейросети на платформе ML Space на базе суперкомпьютера Кристофари. Получилась ruDALL-E — отечественная версия алгоритма. 

Это первый подобный проект на русском языке. Нейросеть мультимодальная, она обучается и на картинках, и на текстах, благодаря чему может генерировать почти бесконечное количество новых изображений по конкретному заданию. Работа идет в три этапа. Сперва нейросеть «читает» текст и создает на его основе определенное число картинок. Затем в работу включается вторая нейросеть. Она выбирает из этого набора наиболее удачные и точные картинки. А третий алгоритм увеличивает изображения без потери качества. 

Изображение по запросу «Кошка, которая сделана из белого облака»
Изображение по запросу «Небо с котятами вместо звезд»

Обучение ruDALL-E длилось 23 тысячи GPU-часов. В качестве учебных материалов использовались данные из 120 млн пар текст-изображение. В итоге проект Сбера стал самым большим среди аналогичных в России и СНГ.

Зачем все это нужно на практике? Если верить сайту компании, ruDALL-E — полезный инструмент для дизайнеров любых направлений. С помощью нейросети можно проектировать интерьер, создавать стоковые картинки и векторные иллюстрации, материалы для рекламы и копирайтинга. Кроме того, ее можно использовать в области архитектурного и промышленного дизайна. Короче говоря, это крайне удобный инструмент для бизнеса. С помощью нейросети можно создать уникальную картинку под конкретное описание, а также генерировать необходимое число иллюстраций со свободной лицензией. 

Похожими проектами занимаются в американской компании Nvidia. Летом разработчики представили бета-версию приложения Canvas. Суть та же: сервис создает изображения по запросу. Только вместо текстовых вводных данных тут требуется схематичный рисунок. Фактически пользователь работает в улучшенном Paint. Он в общих чертах иллюстрирует то, что ему нужно, а нейросеть в режиме реального времени преображает его мазню и делает ее максимально реалистичной. Помимо всего прочего, живой художник может выбрать стилистику, в которой будет работать его искусственный помощник.

Фото: Pexels
Новости — 19:50, 21 ноября
«Яндекс Карты» научились строить маршруты с теплыми остановками
Новости — 19:43, 21 ноября
Лука Гуаданьино снимет фильм «Сержант Рок» с Дэниелом Крэйгом
Новости — 17:00, 21 ноября
«Манифестировать» стало словом года по версии Кембриджского словаря
Новости — 14:50, 21 ноября
Netflix объявил дату премьеры сериала «Нулевой день» с Робертом Де Ниро
Новости — 12:38, 21 ноября
Джерард Батлер и Мейсон Теймз в трейлере ремейка «Как приручить дракона»