Новости — 2 ноября 2021, 14:27

Сбер представил ruDALL-E — нейросеть, которая генерирует изображения по описанию на русском языке

В январе этого года американская компания OpenAI представила DALL-E — нейросеть, которая генерирует изображения по текстовому описанию. Искусственному интеллекту можно загадать что угодно, даже нечто абстрактное или странное, он все-равно это нарисует. Единственный недостаток: алгоритм понимает только текст на английском языке. Разработчикам Сбера этот недостаток показался существенным. Команды SberDevices и Sber AI вместе со SberCloud взяли за основу модель OpenAI, воспроизвели код и запустили обучение собственной нейросети на платформе ML Space на базе суперкомпьютера Кристофари. Получилась ruDALL-E — отечественная версия алгоритма. 

Это первый подобный проект на русском языке. Нейросеть мультимодальная, она обучается и на картинках, и на текстах, благодаря чему может генерировать почти бесконечное количество новых изображений по конкретному заданию. Работа идет в три этапа. Сперва нейросеть «читает» текст и создает на его основе определенное число картинок. Затем в работу включается вторая нейросеть. Она выбирает из этого набора наиболее удачные и точные картинки. А третий алгоритм увеличивает изображения без потери качества. 

Изображение по запросу «Кошка, которая сделана из белого облака»
Изображение по запросу «Небо с котятами вместо звезд»

Обучение ruDALL-E длилось 23 тысячи GPU-часов. В качестве учебных материалов использовались данные из 120 млн пар текст-изображение. В итоге проект Сбера стал самым большим среди аналогичных в России и СНГ.

Зачем все это нужно на практике? Если верить сайту компании, ruDALL-E — полезный инструмент для дизайнеров любых направлений. С помощью нейросети можно проектировать интерьер, создавать стоковые картинки и векторные иллюстрации, материалы для рекламы и копирайтинга. Кроме того, ее можно использовать в области архитектурного и промышленного дизайна. Короче говоря, это крайне удобный инструмент для бизнеса. С помощью нейросети можно создать уникальную картинку под конкретное описание, а также генерировать необходимое число иллюстраций со свободной лицензией. 

Похожими проектами занимаются в американской компании Nvidia. Летом разработчики представили бета-версию приложения Canvas. Суть та же: сервис создает изображения по запросу. Только вместо текстовых вводных данных тут требуется схематичный рисунок. Фактически пользователь работает в улучшенном Paint. Он в общих чертах иллюстрирует то, что ему нужно, а нейросеть в режиме реального времени преображает его мазню и делает ее максимально реалистичной. Помимо всего прочего, живой художник может выбрать стилистику, в которой будет работать его искусственный помощник.

Фото: Pexels
Новости — 16:50, 19 сентября
Кинофестиваль «Маяк» объявил конкурсную программу
Новости — 14:45, 19 сентября
«Стальное сердце», «Майор Гром» и TIOT. Рассказываем, как прошел второй «Фандом Фест»
Новости — 12:25, 19 сентября
Цирк, балет и музыка: «Яндекс» и Imperial Orchestra покажут мистическое шоу по мотивам «Щелкунчика»
Новости — 19:13, 18 сентября
«Эмили в Париже» продлили на 5-й сезон
Кино — 19:04, 18 сентября
Как вынести креатив из мастерских в пространство города? Рассказывает руководитель Агентства креативных индустрий Гюльнара Агамова