Новости — 12 октября 2022, 09:32

Закадровый перевод видео в «Яндекс Браузере» теперь многоголосый

В сентябре 2021-го «Яндекс» добавил закадровый перевод к англоязычным видео на YouTube, Vimeo и других платформах. Работает он следующим образом: нейросети распознают речь, затем определяют гендер говорящего, переводят его слова на русский и синтезируют голос. А что, если говорящих несколько? Над этой задачей разработчики «Яндекса» думали последний год. И придумали: теперь перевод видео в «Браузере» стал многоголосым. Этих голосов 12: шесть мужских и шесть женских. Они помогут воспринимать на слух ролики с большим количеством спикеров — будут читать по ролям.

Как, собственно, работает эта технология? Сперва нейросеть переводит речь в текстовый формат, следя за пунктуацией и границами предложений для правильной интонации в дальнейшем. Затем подключается вторая нейросеть. Она анализирует спектрограмму голоса — визуальное представление спектра частот сигнала, изменяющегося со временем. Попутно искусственный интеллект отмечает на аудиодорожке фрагменты, сказанные разными людьми. В этот момент и становится понятно, кто из спикеров что сказал. Но понятно становится пока только нейросети. 


Затем текст переводится на русский язык и наконец синтезируются голоса. Дело остается за малым: нейросети нужно совместить готовый перевод с видеорядом. Чтобы говорить одновременно с реальными спикерами, ИИ адаптируется на ходу. К примеру, если длина фраз на двух языках разнится, алгоритм ориентируется на таймкоды, а иногда даже ускоряет произношение, убирая ненужные паузы.

«Мы постоянно работаем над качеством перевода и озвучки, чтобы дать нашим пользователям доступ к любому контенту со всего мира», — сказал Дмитрий Тимко, руководитель приложения «Яндекс» и «Яндекс Браузера». Вместе с коллегами они подсчитали, что около половины ютьюб-роликов на иностранных языках — это ролики с тремя и более спикерами. С двухголосой озвучкой воспринимать такой контент не очень удобно, поэтому к имеющимся двум разработчики добавили еще десять голосов. 

Впервые о своей новой технологии в «Яндексе» рассказали прошлым летом. Голосов тогда было еще мало, а разработчики собирали отзывы под несколькими роликами-примерами. Судя по всему, пользователей все устроило — пару месяцев спустя закадровый перевод внедрили на постоянной основе. За прошедший год алгоритмы стали значительно умнее. И дело не только в многоголосом переводе. Сперва нейросети воспринимали текст только на английском языке. Затем к нему добавились французский, немецкий, испанский и итальянский. В планах — новые языки, в частности китайский, и новые возможности. Так, например, сейчас «Яндекс» тестирует уникальную технологию автоматического закадрового перевода прямых трансляций на YouTube.


Фото: кадр из фильма «Репродукция»
Новости — 21:40, 20 сентября
Фаталити от GONE.Fludd: слушаем третий лонгплей рэпера
Новости — 17:51, 20 сентября
Начались съемки 4-го сезона «Бриджертонов»
Новости — 13:50, 20 сентября
Метафоры и злободневность: Кишлак выпустил сингл «Отмена»
Новости — 11:35, 20 сентября
Отсылки к фильмам Тарантино в новом альбоме Zoloto «Перевоплотиться»
Новости — 16:50, 19 сентября
Кинофестиваль «Маяк» объявил конкурсную программу