Новости — 12 октября 2022, 09:32

Закадровый перевод видео в «Яндекс Браузере» теперь многоголосый

В сентябре 2021-го «Яндекс» добавил закадровый перевод к англоязычным видео на YouTube, Vimeo и других платформах. Работает он следующим образом: нейросети распознают речь, затем определяют гендер говорящего, переводят его слова на русский и синтезируют голос. А что, если говорящих несколько? Над этой задачей разработчики «Яндекса» думали последний год. И придумали: теперь перевод видео в «Браузере» стал многоголосым. Этих голосов 12: шесть мужских и шесть женских. Они помогут воспринимать на слух ролики с большим количеством спикеров — будут читать по ролям.

Как, собственно, работает эта технология? Сперва нейросеть переводит речь в текстовый формат, следя за пунктуацией и границами предложений для правильной интонации в дальнейшем. Затем подключается вторая нейросеть. Она анализирует спектрограмму голоса — визуальное представление спектра частот сигнала, изменяющегося со временем. Попутно искусственный интеллект отмечает на аудиодорожке фрагменты, сказанные разными людьми. В этот момент и становится понятно, кто из спикеров что сказал. Но понятно становится пока только нейросети. 


Затем текст переводится на русский язык и наконец синтезируются голоса. Дело остается за малым: нейросети нужно совместить готовый перевод с видеорядом. Чтобы говорить одновременно с реальными спикерами, ИИ адаптируется на ходу. К примеру, если длина фраз на двух языках разнится, алгоритм ориентируется на таймкоды, а иногда даже ускоряет произношение, убирая ненужные паузы.

«Мы постоянно работаем над качеством перевода и озвучки, чтобы дать нашим пользователям доступ к любому контенту со всего мира», — сказал Дмитрий Тимко, руководитель приложения «Яндекс» и «Яндекс Браузера». Вместе с коллегами они подсчитали, что около половины ютьюб-роликов на иностранных языках — это ролики с тремя и более спикерами. С двухголосой озвучкой воспринимать такой контент не очень удобно, поэтому к имеющимся двум разработчики добавили еще десять голосов. 

Впервые о своей новой технологии в «Яндексе» рассказали прошлым летом. Голосов тогда было еще мало, а разработчики собирали отзывы под несколькими роликами-примерами. Судя по всему, пользователей все устроило — пару месяцев спустя закадровый перевод внедрили на постоянной основе. За прошедший год алгоритмы стали значительно умнее. И дело не только в многоголосом переводе. Сперва нейросети воспринимали текст только на английском языке. Затем к нему добавились французский, немецкий, испанский и итальянский. В планах — новые языки, в частности китайский, и новые возможности. Так, например, сейчас «Яндекс» тестирует уникальную технологию автоматического закадрового перевода прямых трансляций на YouTube.


Фото: кадр из фильма «Репродукция»
Новости — 16:00, 4 апреля
Трэп и антиутопия: Soda Luv выпустил альбом IDIOCRACY
Новости — 13:50, 4 апреля
Йоханссон, Камбербэтч и Хэнкс: объявлен каст нового фильма Уэса Андерсона
Новости — 12:10, 4 апреля
Музыкальная драма о Пушкине «Пророк» выйдет в онлайн-кинотеатре PREMIER
Новости — 11:34, 4 апреля
Анна Пересильд на постере новой «Алисы в Стране Чудес»
Новости — 16:00, 3 апреля
«Иллюзия обмана» получит четвертую часть