Новости — 1 сентября 2021, 11:25

Появилась нейросеть, которая реалистично воссоздает человеческий голос

Текст:

Разработчики из Nvidia считают так: искусственный интеллект уже неплохо копирует речь людей, но отличить голос живого человека от робота все еще очень просто. Вся проблема в том, что люди говорят со сложным ритмом, интонациями, каждый со своей скоростью и тембром. Эти детали нейросетям сложно воспроизвести. Точнее, было сложно до последнего времени. В Nvidia попытались сократить этот разрыв и, кажется, у них получилось. На конференции Interspeech 2021 компания представила свои новые технологии, которые позволяют «тренировать» ИИ собственным голосом и получать максимально приближенный к реальности результат.

Главная из них — RAD-TTS (она даже одержала победу на каком-то конкурсе). В основе этой технологии лежит идея восприятия человеческого голоса как музыкального произведения. Поэтому интерфейс RAD-TTS позволяет определять тональность, длительность и силу говорящего с максимальной точностью. Один из главных навыков этой технологии — произносить речь одного человека голосом другого. В ролике, опубликованном на ютьюб-канале Nvidia, видно, как мужчина зачитывает текст, а нейросеть, сохраняя его интонации и ритм, преобразует голос в женский. Впоследствии с RAD-TTS можно работать как с актером озвучки: попросить выделить определенные слова, изменить темп и много чего еще.

Для демонстрации собственных успехов Nvidia опубликовала серию роликов I Am AI («Я — искусственный интеллект»). Там демонстрируются многие технологии компании, но диктором зачастую выступает нейросеть. Сказать, что искусственно сгенерированный голос не отличить от человеческого, нельзя — это будет ложью. Но, возможно, это самый приближенный вариант из тех, что пока можно услышать. В перспективе подобные технологии могут использоваться не только для озвучивания, но и для воссоздания выступлений легендарных певцов, синхронного перевода, а также для помощи людям с нарушениями голоса.

Среди других относительно свежих разработок Nvidia — SDK Maxine и Canvas. Первая может создавать реалистичные аватары для видеоконференций. Для работы SDK Maxine нужна обычная фотография на вебку. На нее нейросеть наложит артикуляцию и сгенерирует анимированную картинку. А Canvas — это «умная» версия допотопного Paint. При помощи специальных инструментов там можно рисовать схематичные разноцветные картинки, а ИИ создаст из них реалистичные пейзажи. Причем результат преображения виден сразу, и выглядит это магически.

Фото: кадр из фильма «Окей, Лекси!»

Теги

Новости — 19:30, 25 июля

«Мы с тобой друг друга не узнали, мы не встретимся вновь»: слушаем сингл «Дорога домой» группы Beautiful Boys

Новости — 17:45, 25 июля

Коля Редькин и художник Gonya7 выпустили комикс о музыке 2010-х «Нужна только искра!»

Новости — 16:10, 25 июля

Начались съемки сериала «Время Счастливых» с Тихоном Жизневским и Ольгой Лерман

Новости — 15:00, 25 июля

По книге Гоголя «Вечера на хуторе близ Диканьки» выйдет аудиосериал с Милой Ершовой и Львом Зулькарнаевым

Новости — 13:00, 25 июля

Mirèle выпустила альбом «Тревожный тип привязанности». На фитах ЛСП, Слава КПСС и Бонд с кнопкой