Автоматические субтитры — новый тренд. В апреле новую функцию представила команда TikTok, месяц спустя к ней присоединились ребята из Instagram* . Они объявили, что текстовое сопровождение теперь можно читать в сторис. Прошло еще немного времени, и к негласному флешмобу присоединились разработчики из ВКонтакте, которые обновили фирменный видеоплеер и добавили туда субтитры на русском языке. Они, естественно, не менее автоматические, чем у коллег: созданы на основе собственных инструментов по распознаванию речи, алгоритмов машинного обучения и технологий интеллектуального шумоподавления, которые Mail.ru Group представила зимой.
Судя по описанию, субтитры должны быть максимально адаптированы для комфортного чтения. В тексте будут расставлены знаки препинания, а там, где нужно, будут стоять заглавные буквы. Говорят, это положительно отличает технологии ВКонтакте от тех решений, что представлены на рынке. Чтобы перевод был синхронным, текст будет распределен по кадрам и будет появляться ровно в тот момент, когда произносится фраза. А в скором времени «умные» технологии дополнятся диаризацией — процессом, при котором фразы спикеров будут разделяться между собой, даже если люди общаются без заметных уху пауз.
В данный момент субтитры доступны лишь некоторым пользователям и появляются только в самых просматриваемых видео и роликах из верифицированных сообществ ВКонтакте. Все потому, что команда соцсети пока тестирует новую функцию и продолжает обучать искусственный интеллект. Но то, что уже умеет фирменный видеоплеер, впечатляет. Дабы расшифровка была максимально точной, аудиопоток проходит четыре ступени обработки. Сначала с помощью технологии интеллектуального шумоподавления голос очищают от фоновых звуков. Благодаря этому субтитры смогут появляться не только в профессиональных, но и в любительских роликах. На втором этапе нейросеть распознает слова и составляет из них текст. Затем расставляются знаки препинания и заглавные буквы. Это делается по уже существующему паттерну: подобным образом ВКонтакте расшифровывает аудиосообщения. В конце к работе подключаются методы машинного обучения. Они распределяют текст по кадрам.
По словам технического директора соцсети Александра Тоболя, при помощи новой опции они с коллегами хотят разрушить любые барьеры в коммуникации. Благодаря автоматическим субтитрам понимать содержание роликов смогут люди с нарушениями слуха, а также те пользователи, которые в силу обстоятельств не могут смотреть видео со звуком. Команда ВКонтакте собирается продолжать развивать нейросетевые технологии и внедрять машинное обучение в другие сервисы. Автосубтитры же начнут работать в полную силу до конца этого года — к этому времени они будут доступны в большей части роликов, опубликованных на платформе.
Фото: vk.com/team
* Деятельность компании Meta Platforms Inc. (Facebook и Instagram) на территории РФ запрещена
** Признан иноагентом на территории РФ