Новости — 7 января 2021, 10:44

Пингвин в шапке и выгуливающая собаку редиска: нейросеть научилась превращать текст в картинки

Компания разработчиков OpenAI создала нейросеть, которая умеет превращать любой текст на английском языке в сгенерированное в режиме реального времени изображение. Искусственный интеллект получил название DALL·E — смесь имени художника Сальвадора Дали и главного героя-робота из мультфильма Pixar «ВАЛЛ·И». В основе нейросети алгоритм GPT-3, который OpenAI ранее уже использовал для генератора статей, стихов для песен и прочих программ. В этот раз разработчики пошли дальше и научили искусственный интеллект создавать картинки, основываясь на простом текстовом описании.

В материале на сайте OpenAI уже можно найти десятки примеров работы DALL·E. Например, несколько вариантов изображений по запросу «редиска-ребенок в балетной пачке, выгуливающая собаку», «кресло в форме авокадо», «фигура куба, сделанного из попкорна» и многое другое. «Поиграться» с генератором можно и самому. Правда, собственные запросы писать нельзя. На сайте OpenAI есть несколько блоков, в каждом из которых на выбор есть десяток слов, которые можно между собой комбинировать. Шаблоны предложений самые разные: «[количество] [предметов], лежащих на столе», «[фигура], сделанная из [материала]», даже «эмодзи [животного] в [цвет] шапке, [цвет] варежках, [цвет] рубашке и [цвет] штанах. 


На каждый запрос DALL·E выдает несколько вариантов: причем некоторые картинки получаются минималистичными и абстрактными, в то время как другие будто бы нарисованные профессиональным дизайнером. DALL·E учитывает 12 млрд различных параметров, поэтому в большинстве случаев искусственный интеллект справляется со своей задачей и выдает максимально точные результаты. Впрочем, разработчики отмечают, что многое зависит непосредственно от построения самого запроса. Например, одинаковые по смыслу предложения в различной формулировке DALL·E может воспринять по-разному. Искусственный интеллект определяет не только количество, цвет, форму и другие «базовые» параметры, но и ракурс. Например, нейросеть можно попросить изобразить то или иное существо или предмет крупным планом или сбоку. DALL·E также может показать предмет в разрезе, в режиме макро, «одеть» на манекен какую-либо одежду или «написать» на чем-то слово или предложение.

В ближайшем будущем OpenAI обещает поделиться большим количеством подробностей касательно архитектуры и устройства DALL·E. Разместят ли когда-нибудь программу в открытом доступе с полным функционалом, пока не раскрывается.

Фото: кадр из сериала «Черное зеркало»
Новости — 16:50, 19 сентября
Кинофестиваль «Маяк» объявил конкурсную программу
Новости — 14:45, 19 сентября
«Стальное сердце», «Майор Гром» и TIOT. Рассказываем, как прошел второй «Фандом Фест»
Новости — 12:25, 19 сентября
Цирк, балет и музыка: «Яндекс» и Imperial Orchestra покажут мистическое шоу по мотивам «Щелкунчика»
Новости — 19:13, 18 сентября
«Эмили в Париже» продлили на 5-й сезон
Кино — 19:04, 18 сентября
Как вынести креатив из мастерских в пространство города? Рассказывает руководитель Агентства креативных индустрий Гюльнара Агамова