Новости — 7 января 2021, 10:44

Пингвин в шапке и выгуливающая собаку редиска: нейросеть научилась превращать текст в картинки

Компания разработчиков OpenAI создала нейросеть, которая умеет превращать любой текст на английском языке в сгенерированное в режиме реального времени изображение. Искусственный интеллект получил название DALL·E — смесь имени художника Сальвадора Дали и главного героя-робота из мультфильма Pixar «ВАЛЛ·И». В основе нейросети алгоритм GPT-3, который OpenAI ранее уже использовал для генератора статей, стихов для песен и прочих программ. В этот раз разработчики пошли дальше и научили искусственный интеллект создавать картинки, основываясь на простом текстовом описании.

В материале на сайте OpenAI уже можно найти десятки примеров работы DALL·E. Например, несколько вариантов изображений по запросу «редиска-ребенок в балетной пачке, выгуливающая собаку», «кресло в форме авокадо», «фигура куба, сделанного из попкорна» и многое другое. «Поиграться» с генератором можно и самому. Правда, собственные запросы писать нельзя. На сайте OpenAI есть несколько блоков, в каждом из которых на выбор есть десяток слов, которые можно между собой комбинировать. Шаблоны предложений самые разные: «[количество] [предметов], лежащих на столе», «[фигура], сделанная из [материала]», даже «эмодзи [животного] в [цвет] шапке, [цвет] варежках, [цвет] рубашке и [цвет] штанах. 


На каждый запрос DALL·E выдает несколько вариантов: причем некоторые картинки получаются минималистичными и абстрактными, в то время как другие будто бы нарисованные профессиональным дизайнером. DALL·E учитывает 12 млрд различных параметров, поэтому в большинстве случаев искусственный интеллект справляется со своей задачей и выдает максимально точные результаты. Впрочем, разработчики отмечают, что многое зависит непосредственно от построения самого запроса. Например, одинаковые по смыслу предложения в различной формулировке DALL·E может воспринять по-разному. Искусственный интеллект определяет не только количество, цвет, форму и другие «базовые» параметры, но и ракурс. Например, нейросеть можно попросить изобразить то или иное существо или предмет крупным планом или сбоку. DALL·E также может показать предмет в разрезе, в режиме макро, «одеть» на манекен какую-либо одежду или «написать» на чем-то слово или предложение.

В ближайшем будущем OpenAI обещает поделиться большим количеством подробностей касательно архитектуры и устройства DALL·E. Разместят ли когда-нибудь программу в открытом доступе с полным функционалом, пока не раскрывается.

Фото: кадр из сериала «Черное зеркало»
Новости — 17:50, 22 мая
Кэри Маллиган сыграет в «Хрониках Нарнии» Греты Гервиг
Новости — 16:00, 22 мая
Дэниел Крэйг и Киллиан Мерфи могут сыграть в новом фильме Дэмьена Шазелла
Новости — 13:43, 22 мая
Стартовали съемки 3-го сезона «Вампиров средней полосы»
Новости — 11:38, 22 мая
Квентин Тарантино выпустит серию книг о 10 своих фильмах
Новости — 16:00, 21 мая
Netflix анонсировал мультсериал по игре Clash of Clans