Компания разработчиков OpenAI создала нейросеть, которая умеет превращать любой текст на английском языке в сгенерированное в режиме реального времени изображение. Искусственный интеллект получил название DALL·E — смесь имени художника Сальвадора Дали и главного героя-робота из мультфильма Pixar «ВАЛЛ·И». В основе нейросети алгоритм GPT-3, который OpenAI ранее уже использовал для генератора статей, стихов для песен и прочих программ. В этот раз разработчики пошли дальше и научили искусственный интеллект создавать картинки, основываясь на простом текстовом описании.
В материале на сайте OpenAI уже можно найти десятки примеров работы DALL·E. Например, несколько вариантов изображений по запросу «редиска-ребенок в балетной пачке, выгуливающая собаку», «кресло в форме авокадо», «фигура куба, сделанного из попкорна» и многое другое. «Поиграться» с генератором можно и самому. Правда, собственные запросы писать нельзя. На сайте OpenAI есть несколько блоков, в каждом из которых на выбор есть десяток слов, которые можно между собой комбинировать. Шаблоны предложений самые разные: «[количество] [предметов], лежащих на столе», «[фигура], сделанная из [материала]», даже «эмодзи [животного] в [цвет] шапке, [цвет] варежках, [цвет] рубашке и [цвет] штанах.
На каждый запрос DALL·E выдает несколько вариантов: причем некоторые картинки получаются минималистичными и абстрактными, в то время как другие будто бы нарисованные профессиональным дизайнером. DALL·E учитывает 12 млрд различных параметров, поэтому в большинстве случаев искусственный интеллект справляется со своей задачей и выдает максимально точные результаты. Впрочем, разработчики отмечают, что многое зависит непосредственно от построения самого запроса. Например, одинаковые по смыслу предложения в различной формулировке DALL·E может воспринять по-разному. Искусственный интеллект определяет не только количество, цвет, форму и другие «базовые» параметры, но и ракурс. Например, нейросеть можно попросить изобразить то или иное существо или предмет крупным планом или сбоку. DALL·E также может показать предмет в разрезе, в режиме макро, «одеть» на манекен какую-либо одежду или «написать» на чем-то слово или предложение.
В ближайшем будущем OpenAI обещает поделиться большим количеством подробностей касательно архитектуры и устройства DALL·E. Разместят ли когда-нибудь программу в открытом доступе с полным функционалом, пока не раскрывается.