В сентябре 2021-го «Яндекс» добавил закадровый перевод к англоязычным видео на YouTube, Vimeo и других платформах. Работает он следующим образом: нейросети распознают речь, затем определяют гендер говорящего, переводят его слова на русский и синтезируют голос. А что, если говорящих несколько? Над этой задачей разработчики «Яндекса» думали последний год. И придумали: теперь перевод видео в «Браузере» стал многоголосым. Этих голосов 12: шесть мужских и шесть женских. Они помогут воспринимать на слух ролики с большим количеством спикеров — будут читать по ролям.
Как, собственно, работает эта технология? Сперва нейросеть переводит речь в текстовый формат, следя за пунктуацией и границами предложений для правильной интонации в дальнейшем. Затем подключается вторая нейросеть. Она анализирует спектрограмму голоса — визуальное представление спектра частот сигнала, изменяющегося со временем. Попутно искусственный интеллект отмечает на аудиодорожке фрагменты, сказанные разными людьми. В этот момент и становится понятно, кто из спикеров что сказал. Но понятно становится пока только нейросети.
Затем текст переводится на русский язык и наконец синтезируются голоса. Дело остается за малым: нейросети нужно совместить готовый перевод с видеорядом. Чтобы говорить одновременно с реальными спикерами, ИИ адаптируется на ходу. К примеру, если длина фраз на двух языках разнится, алгоритм ориентируется на таймкоды, а иногда даже ускоряет произношение, убирая ненужные паузы.
«Мы постоянно работаем над качеством перевода и озвучки, чтобы дать нашим пользователям доступ к любому контенту со всего мира», — сказал Дмитрий Тимко, руководитель приложения «Яндекс» и «Яндекс Браузера». Вместе с коллегами они подсчитали, что около половины ютьюб-роликов на иностранных языках — это ролики с тремя и более спикерами. С двухголосой озвучкой воспринимать такой контент не очень удобно, поэтому к имеющимся двум разработчики добавили еще десять голосов.
Впервые о своей новой технологии в «Яндексе» рассказали прошлым летом. Голосов тогда было еще мало, а разработчики собирали отзывы под несколькими роликами-примерами. Судя по всему, пользователей все устроило — пару месяцев спустя закадровый перевод внедрили на постоянной основе. За прошедший год алгоритмы стали значительно умнее. И дело не только в многоголосом переводе. Сперва нейросети воспринимали текст только на английском языке. Затем к нему добавились французский, немецкий, испанский и итальянский. В планах — новые языки, в частности китайский, и новые возможности. Так, например, сейчас «Яндекс» тестирует уникальную технологию автоматического закадрового перевода прямых трансляций на YouTube.