Автоматически созданными субтитрами уже никого не удивишь, они давно есть на ютьюбе, в апреле этого года появились в
TikTok, а в мае — в
Instagram* . Но «Яндекс» решил пойти дальше и автоматически переводить речь в видео, да еще и сразу добавлять закадровую озвучку. Эта функция будет работать в «Яндекс.Браузере» для Windows, macOS, Linux и Android и в приложении «Яндекс», которое доступно для Android и iOS. А перевести и послушать озвучку можно будет практически для любых видео на ютьюбе, Vimeo и других платформах.
Как же работают автоматические перевод и озвучка в режиме реального времени? Начинается процесс с того, что «Яндекс» распознает речь в видео и превращает ее в текст, а потом с помощью
нейросетей разбивает его на предложения. Затем сервис определяет гендер говорящего, переводит предложения на русский язык и синтезирует голос. После чего остается только совместить готовый перевод с видеорядом, для этой задачи тоже используются нейросети. Предложения в русском языке часто длиннее, чем в английском, при этом все фразы должны произноситься в определенный момент видео. Чтобы правильно совместить перевод и видеоряд, алгоритм ориентируется на специальные таймкоды и иногда ускоряет речь, например, убирая ненужные паузы.
Чтобы активировать перевод, пользователю необходимо нажать на соответствующую кнопку в плеере и чуть-чуть подождать — перевод быстрый, но не мгновенный, «Яндексу» понадобится на него несколько минут. Когда русская озвучка будет готова, сервис отправит вам уведомление. Итоговый перевод получается закадровым, это значит, что оригинальная звуковая дорожка приглушается и на нее накладывается новая. В озвучке применяются два синтезированных голоса: мужской и женский (знакомый многим голос помощника Алисы). При этом в будущем «Яндекс» планирует увеличить количество голосов, чтобы пользователям было легче различать говорящих.
Руководитель «Яндекс.Браузера» Роман Иванов объясняет, почему считает новую функцию невероятно важной: «Автоматический перевод видео открывает перед людьми целый мир, который был недоступен из-за языкового барьера». Он также подчеркнул, что «Яндекс» стремится стереть абсолютно все языковые границы в сети. По словам Романа, компания начала работать над этим еще десять лет назад, и теперь «Яндекс» способен переводить три главных вида контента: текст, изображения и видео.
Автоматический перевод видео — далеко не первая технологическая инновация сервисов «Яндекса». Весной этого года в приложении
появилась «умная» камера, способная идентифицировать предметы и искать нужную пользователю информацию о них. У камеры есть три режима: «Поиск по фото», «Сканер» и «Перевод». Благодаря им можно сканировать документы, переводить текст и искать информацию (например, узнать породу собаки в кадре или найти магазин, в котором можно купить вещь). Все это получится сделать в режиме реального времени, а при желании фото интересующего вас объекта можно загрузить из галереи смартфона. Все эти функции появились в «умной» камере за счет нескольких технологий: компьютерному зрению, машинному переводу и поиску.
Фото: Unsplash, Пресс-служба
* Деятельность компании Meta Platforms Inc. (Facebook и Instagram) на территории РФ запрещена
** Признан иноагентом на территории РФ