Они способны генерировать качественные изображения на основе текстового описания. А потому с нейросетями не только играются, прося их нарисовать мемы или новые версии классических картин, но и полноценно сотрудничают. Так, DALL-E 2 уже успела создать обложку для журнала Cosmopolitan и представить концепт автомобиля от Apple, вдохновленного MacBook и Magic Mouse. Инструменту прекрасно удается все, кроме одного: распознавать описания на других языках. Решить эту проблему отважились в «Яндексе».
Компания представила прототип собственной нейросети для генерации картинок по текстовым запросам «Шедеврум». Название говорящее: ИИ способен создавать реалистичные и фантастические картинки, максимально погружаясь в техзадание. Проверить, как «Шедеврум» сочетает несочетаемое и фантазирует, можно в бета-версии приложения, которая уже доступна на Android и iOS.
«Шедеврум» — говорят в компании, полиглот: он понимает русский и английский языки. Но главная его черта — любовь к конкретике. Чем подробнее описание, тем точнее получается результат. Помимо базового задания, нейросеть способна учитывать особые пожелания. Например, может создать фотореалистичное изображение, если такое требуется. Кроме того, она может подражать известным художникам и работать в заданных художественных стилях.
По какому принципу работает «Шедеврум»? Нейросеть генерирует изображения по методу каскадной диффузии. Сначала она рисует картинки в соответствии с запросом, а затем поэтапно увеличивает их разрешение и добавляет детали. Первую версию генеративной модели разработчики обучали на 240 млн примеров картинок с текстовыми описаниями. Но так как пока запущена лишь бета-версия приложения, обучение продолжается. Сейчас «Шедевруму» показывают набор данных из 500 млн примеров. И это лишь начало: при следующих обновлениях качество будет постепенно улучшаться.
Первые шедевры «Шедеврума» можно изучить, скачав приложение. Там есть общая лента, в которой можно лайкать понравившиеся картинки. Самые популярные из них попадают в топ на отдельной вкладке. Чтобы сгенерировать собственное изображение, нужно оставить заявку. Но это временно: в дальнейшем играть с нейросетью смогут все зарегистрированные пользователи.
Среди работ «Шедеврума» — гусь-зомби, бобер, нарисованный в стиле Энди Уорхола, котейка в шубейке и робот-капибара. Когда состоится финальный релиз, программа будет способна генерировать баннеры, иллюстрации, создавать изображения для интернет-витрин и многое другое.