Новости — 7 января 2021, 10:44

Пингвин в шапке и выгуливающая собаку редиска: нейросеть научилась превращать текст в картинки

Компания разработчиков OpenAI создала нейросеть, которая умеет превращать любой текст на английском языке в сгенерированное в режиме реального времени изображение. Искусственный интеллект получил название DALL·E — смесь имени художника Сальвадора Дали и главного героя-робота из мультфильма Pixar «ВАЛЛ·И». В основе нейросети алгоритм GPT-3, который OpenAI ранее уже использовал для генератора статей, стихов для песен и прочих программ. В этот раз разработчики пошли дальше и научили искусственный интеллект создавать картинки, основываясь на простом текстовом описании.

В материале на сайте OpenAI уже можно найти десятки примеров работы DALL·E. Например, несколько вариантов изображений по запросу «редиска-ребенок в балетной пачке, выгуливающая собаку», «кресло в форме авокадо», «фигура куба, сделанного из попкорна» и многое другое. «Поиграться» с генератором можно и самому. Правда, собственные запросы писать нельзя. На сайте OpenAI есть несколько блоков, в каждом из которых на выбор есть десяток слов, которые можно между собой комбинировать. Шаблоны предложений самые разные: «[количество] [предметов], лежащих на столе», «[фигура], сделанная из [материала]», даже «эмодзи [животного] в [цвет] шапке, [цвет] варежках, [цвет] рубашке и [цвет] штанах. 


На каждый запрос DALL·E выдает несколько вариантов: причем некоторые картинки получаются минималистичными и абстрактными, в то время как другие будто бы нарисованные профессиональным дизайнером. DALL·E учитывает 12 млрд различных параметров, поэтому в большинстве случаев искусственный интеллект справляется со своей задачей и выдает максимально точные результаты. Впрочем, разработчики отмечают, что многое зависит непосредственно от построения самого запроса. Например, одинаковые по смыслу предложения в различной формулировке DALL·E может воспринять по-разному. Искусственный интеллект определяет не только количество, цвет, форму и другие «базовые» параметры, но и ракурс. Например, нейросеть можно попросить изобразить то или иное существо или предмет крупным планом или сбоку. DALL·E также может показать предмет в разрезе, в режиме макро, «одеть» на манекен какую-либо одежду или «написать» на чем-то слово или предложение.

В ближайшем будущем OpenAI обещает поделиться большим количеством подробностей касательно архитектуры и устройства DALL·E. Разместят ли когда-нибудь программу в открытом доступе с полным функционалом, пока не раскрывается.

Фото: кадр из сериала «Черное зеркало»
Образ жизни — 12:21, 23 ноября
Что бы посмотреть? «Контакты. Игра», «Читатели» и другие новые шоу
Новости — 16:05, 22 ноября
Стивен Кинг анонсировал новую книгу — в ней вернется Холли Гибни
Новости — 13:40, 22 ноября
Новый роман по «Ведьмаку» будет про юного Геральта
Кино — 13:10, 22 ноября
«Сердце должно гореть у всех». Олег Савостюк — о сериале «Дайте шоу», парадоксальности страхов и воспитании внутреннего критика
Новости — 11:31, 22 ноября
Электроника и этно-мотивы: дуэт LAVBLAST выпустил второй альбом More