В январе этого года американская компания OpenAI представила DALL-E — нейросеть, которая генерирует изображения по текстовому описанию. Искусственному интеллекту можно загадать что угодно, даже нечто абстрактное или странное, он все-равно это нарисует. Единственный недостаток: алгоритм понимает только текст на английском языке. Разработчикам Сбера этот недостаток показался существенным. Команды SberDevices и Sber AI вместе со SberCloud взяли за основу модель OpenAI, воспроизвели код и запустили обучение собственной нейросети на платформе ML Space на базе суперкомпьютера Кристофари. Получилась ruDALL-E — отечественная версия алгоритма.
Это первый подобный проект на русском языке. Нейросеть мультимодальная, она обучается и на картинках, и на текстах, благодаря чему может генерировать почти бесконечное количество новых изображений по конкретному заданию. Работа идет в три этапа. Сперва нейросеть «читает» текст и создает на его основе определенное число картинок. Затем в работу включается вторая нейросеть. Она выбирает из этого набора наиболее удачные и точные картинки. А третий алгоритм увеличивает изображения без потери качества.
Обучение ruDALL-E длилось 23 тысячи GPU-часов. В качестве учебных материалов использовались данные из 120 млн пар текст-изображение. В итоге проект Сбера стал самым большим среди аналогичных в России и СНГ.
Зачем все это нужно на практике? Если верить сайту компании, ruDALL-E — полезный инструмент для дизайнеров любых направлений. С помощью нейросети можно проектировать интерьер, создавать стоковые картинки и векторные иллюстрации, материалы для рекламы и копирайтинга. Кроме того, ее можно использовать в области архитектурного и промышленного дизайна. Короче говоря, это крайне удобный инструмент для бизнеса. С помощью нейросети можно создать уникальную картинку под конкретное описание, а также генерировать необходимое число иллюстраций со свободной лицензией.
Похожими проектами занимаются в американской компании Nvidia. Летом разработчики представили бета-версию приложения Canvas. Суть та же: сервис создает изображения по запросу. Только вместо текстовых вводных данных тут требуется схематичный рисунок. Фактически пользователь работает в улучшенном Paint. Он в общих чертах иллюстрирует то, что ему нужно, а нейросеть в режиме реального времени преображает его мазню и делает ее максимально реалистичной. Помимо всего прочего, живой художник может выбрать стилистику, в которой будет работать его искусственный помощник.