Новости — 1 сентября 2021, 11:25

Появилась нейросеть, которая реалистично воссоздает человеческий голос

Разработчики из Nvidia считают так: искусственный интеллект уже неплохо копирует речь людей, но отличить голос живого человека от робота все еще очень просто. Вся проблема в том, что люди говорят со сложным ритмом, интонациями, каждый со своей скоростью и тембром. Эти детали нейросетям сложно воспроизвести. Точнее, было сложно до последнего времени. В Nvidia попытались сократить этот разрыв и, кажется, у них получилось. На конференции Interspeech 2021 компания представила свои новые технологии, которые позволяют «тренировать» ИИ собственным голосом и получать максимально приближенный к реальности результат. 

Главная из них — RAD-TTS (она даже одержала победу на каком-то конкурсе). В основе этой технологии лежит идея восприятия человеческого голоса как музыкального произведения. Поэтому интерфейс RAD-TTS позволяет определять тональность, длительность и силу говорящего с максимальной точностью. Один из главных навыков этой технологии — произносить речь одного человека голосом другого. В ролике, опубликованном на ютьюб-канале Nvidia, видно, как мужчина зачитывает текст, а нейросеть, сохраняя его интонации и ритм, преобразует голос в женский. Впоследствии с RAD-TTS можно работать как с актером озвучки: попросить выделить определенные слова, изменить темп и много чего еще. 


Для демонстрации собственных успехов Nvidia опубликовала серию роликов I Am AI («Я — искусственный интеллект»). Там демонстрируются многие технологии компании, но диктором зачастую выступает нейросеть. Сказать, что искусственно сгенерированный голос не отличить от человеческого, нельзя — это будет ложью. Но, возможно, это самый приближенный вариант из тех, что пока можно услышать. В перспективе подобные технологии могут использоваться не только для озвучивания, но и для воссоздания выступлений легендарных певцов, синхронного перевода, а также для помощи людям с нарушениями голоса.

Среди других относительно свежих разработок Nvidia — SDK Maxine и Canvas. Первая может создавать реалистичные аватары для видеоконференций. Для работы SDK Maxine нужна обычная фотография на вебку. На нее нейросеть наложит артикуляцию и сгенерирует анимированную картинку. А Canvas — это «умная» версия допотопного Paint. При помощи специальных инструментов там можно рисовать схематичные разноцветные картинки, а ИИ создаст из них реалистичные пейзажи. Причем результат преображения виден сразу, и выглядит это магически. 

Фото: кадр из фильма «Окей, Лекси!»
Новости — 16:50, 19 сентября
Кинофестиваль «Маяк» объявил конкурсную программу
Новости — 14:45, 19 сентября
«Стальное сердце», «Майор Гром» и TIOT. Рассказываем, как прошел второй «Фандом Фест»
Новости — 12:25, 19 сентября
Цирк, балет и музыка: «Яндекс» и Imperial Orchestra покажут мистическое шоу по мотивам «Щелкунчика»
Новости — 19:13, 18 сентября
«Эмили в Париже» продлили на 5-й сезон
Кино — 19:04, 18 сентября
Как вынести креатив из мастерских в пространство города? Рассказывает руководитель Агентства креативных индустрий Гюльнара Агамова