Новости — 7 января 2021, 10:44

Пингвин в шапке и выгуливающая собаку редиска: нейросеть научилась превращать текст в картинки

Компания разработчиков OpenAI создала нейросеть, которая умеет превращать любой текст на английском языке в сгенерированное в режиме реального времени изображение. Искусственный интеллект получил название DALL·E — смесь имени художника Сальвадора Дали и главного героя-робота из мультфильма Pixar «ВАЛЛ·И». В основе нейросети алгоритм GPT-3, который OpenAI ранее уже использовал для генератора статей, стихов для песен и прочих программ. В этот раз разработчики пошли дальше и научили искусственный интеллект создавать картинки, основываясь на простом текстовом описании.

В материале на сайте OpenAI уже можно найти десятки примеров работы DALL·E. Например, несколько вариантов изображений по запросу «редиска-ребенок в балетной пачке, выгуливающая собаку», «кресло в форме авокадо», «фигура куба, сделанного из попкорна» и многое другое. «Поиграться» с генератором можно и самому. Правда, собственные запросы писать нельзя. На сайте OpenAI есть несколько блоков, в каждом из которых на выбор есть десяток слов, которые можно между собой комбинировать. Шаблоны предложений самые разные: «[количество] [предметов], лежащих на столе», «[фигура], сделанная из [материала]», даже «эмодзи [животного] в [цвет] шапке, [цвет] варежках, [цвет] рубашке и [цвет] штанах. 


На каждый запрос DALL·E выдает несколько вариантов: причем некоторые картинки получаются минималистичными и абстрактными, в то время как другие будто бы нарисованные профессиональным дизайнером. DALL·E учитывает 12 млрд различных параметров, поэтому в большинстве случаев искусственный интеллект справляется со своей задачей и выдает максимально точные результаты. Впрочем, разработчики отмечают, что многое зависит непосредственно от построения самого запроса. Например, одинаковые по смыслу предложения в различной формулировке DALL·E может воспринять по-разному. Искусственный интеллект определяет не только количество, цвет, форму и другие «базовые» параметры, но и ракурс. Например, нейросеть можно попросить изобразить то или иное существо или предмет крупным планом или сбоку. DALL·E также может показать предмет в разрезе, в режиме макро, «одеть» на манекен какую-либо одежду или «написать» на чем-то слово или предложение.

В ближайшем будущем OpenAI обещает поделиться большим количеством подробностей касательно архитектуры и устройства DALL·E. Разместят ли когда-нибудь программу в открытом доступе с полным функционалом, пока не раскрывается.

Фото: кадр из сериала «Черное зеркало»
Новости — 16:00, 3 апреля
«Иллюзия обмана» получит четвертую часть 
Новости — 13:50, 3 апреля
Вышел трейлер «Источника вечной молодости» — нового фильма Гая Ричи
Образ жизни — 12:43, 3 апреля
Перерождение, магия кино и упорядоченный хаос: новые дропы Red September, ARNY PRAHT, ZARINA и других брендов
Новости — 11:27, 3 апреля
Beautiful Boys выпустили «Мы не изменимся никогда» — свой второй студийный альбом
Новости — 19:00, 2 апреля
«Пикник "Афиши"» пройдет в Москве и Санкт-Петербурге