Новости — 12 декабря 2021, 10:01

Нейросеть научилась определять звуки в беззвучных видео

Искусственный интеллект обладает множеством способностей. С одной стороны, стремительное развитие технологий может кого-то пугать, а с другой — это серьезно облегчает жизнь и двигает прогресс. Так, разработчики из Nvidia представили нейросеть, которая реалистично воссоздает человеческий голос, а еще через какое-то время слушатели впервые насладились законченной 10-й симфонией Бетховена. Все благодаря научному сотруднику из Федеральной политехнической школы Лозанны EPFL Флориану Коломбо, который смог воссоздать недостающий фрагмент музыкального произведения. И вот у Nvidia новая разработка, которая и вовсе кажется магией: нейросеть научилась подбирать звук для беззвучных видео. 

#INSERT_ARTICLE#

Ученые из Университета Карнеги — Меллона с компанией Runway, разрабатывающей компьютерное программное обеспечение, представили технологию Soundify. Она способна подставлять подходящие звуки в видео, у которого отсутствует аудиодорожка. Над проектом работали Дэвид Чуан-Эн Лин, Анастасис Германидис, Инин Ши, Кристобаль Валенсуэла и Николас Мартеларо.   

Чтобы сопоставить звук с изображением, ученые использовали отдельные программы для анализа аудио и видео. Прежде всего, они разделили исходный ролик по кадрам, анализируя цветовую гистограмму между соседними изображениями. Однако этого было недостаточно, чтобы нейросеть под названием CLIP смогла подставить звук. Далее исследователи классифицировали звуки на две категории. К первой они отнесли объекты на видео, которые производят конкретные четкие звуки. Ученые назвали их «эффектами». К ним отнесли в том числе звонок велосипеда, щелчок камеры и звук клавиатуры. Во вторую же группу вошли фоновые шумы: например, звуки кафе, аэропорта или улицы. Для определения аудио использовали библиотеку звуков Epidemic Sound, в которой собрано более 90 тысяч шумов.

#INSERT_ARTICLE#

Но и на этом работа ученых не закончилась. Следующим шагом они пропустили изображение через нейросеть, которая сделала метки на каждом кадре. Таким образом нейросеть подобрала пять наиболее подходящих звуков для сцены. По задумке создателей, технология изначально предлагает подставить на видео конкретный звуковой эффект, который ей кажется наиболее удачным, но пользователь может самостоятельно поменять его на один из пяти предложенных вариантов. 

На последнем этапе алгоритм учитывает временные интервалы в видео, когда звук должен воспроизводиться, поскольку, как отметили в отчете ученые, объект может появляться и исчезать из кадра, удаляться и приближаться в видео. Несмотря на то, что технология уже хорошо развита, исследователям все еще есть к чему стремиться. К примеру, сейчас фоновый звук не получится настроить, если вдруг внезапно кадр леса сменится на городскую улицу. Так что, если изначально пользователь выбрал для изображения звук водопада, то нейросеть не додумается заменить его в следующем кадре с другой средой.

#INSERT_ARTICLE#

Подписывайтесь на наш Telegram-канал
Фото: Pexels
* Деятельность компании Meta Platforms Inc. (Facebook и Instagram) на территории РФ запрещена
** Признан иноагентом на территории РФ
Читайте также
Новости — 17:15, 15 июня 2026
Мощные хуки и приятные звуки. Интервью с группой «СТОУНД»
Новости, Новости — 15 июня, 17:15
Французский фэшн-блогер Lyas отправляется в тур с вечеринкой La Watch Party
Новости, Новости — 15 июня, 16:10
Сара Джессика Паркер получила почетную степень доктора искусств
Новости, Новости — 15 июня, 13:40
«Додо Пицца» выпустит коллекцию по мультфильму «Винкс»
Новости — 11 июня, 19:40
Библейские отсылки и веб-хейт. Блогеры и критики — о третьем сезоне «Эйфории»
Новости, Новости — 11 июня, 17:40
Ченнинг Татум может вернуться в новом фильме по «Мачо и ботану»
Новости, Новости — 11 июня, 16:20
Майлз Теллер исполнит главную роль в триллере Copperhead
Новости, Новости — 11 июня, 15:05
Джереми Стронг сыграет Марка Цукерберга в «Социальной расплате»
Новости, Новости — 11 июня, 14:10
Мем о пухососах превратился в игру в поисковике «Яндекса»
Новости, Новости — 10 июня, 17:35
На Яузской улице открылось Bookcafé от петербургской KGallery
Новости, Новости — 10 июня, 15:55
Porsche представила коллаборацию с «Историей игрушек»
Новости, Новости — 10 июня, 14:40
No body, no crime: третий сезон «Хороших девочек не убивают» выйдет в 2027 году
Новости, Новости — 10 июня, 13:40
Новое место в Москве: шотошная «Двойка» на Тверской
Новости, Новости — 10 июня, 12:20
Появилась инди-игра Paralives. Это симулятор жизни
Новости, Новости — 9 июня, 16:55
«Человек-паук: Новый день» будет самым длинным фильмом о Питере Паркере
Новости, Новости — 9 июня, 15:05
Чаппелл Рон стала амбассадором линейки MAC Viva Glam
Новости, Новости — 9 июня, 13:05
София Коппола выпустила книгу о Марке Джейкобсе
Новости — 8 июня, 21:10
Так необычно, зайка. 8 незаезженных летних фестивалей
Новости, Новости — 8 июня, 20:35
В Нью-Йорке прошла 79-я церемония вручения премии «Тони»
Новости, Новости — 8 июня, 18:23
Gears E-Day, Persona 6 и Spyro 4: что анонсировали на XBOX Games Showcase
Новости, Новости — 8 июня, 17:30
Новое место в Москве: бистро Fab33 в Большом Сухаревском переулке
Новости, Новости — 8 июня, 16:15
Появился проморолик сериала «Аватар: Легенда об Аанге»
Все звёзды и инфлюенсеры
Новости, Новости — 8 июня, 15:25
Ольга Бузова выступит на VK Fest
Новости, Новости — 5 июня, 19:15
Boulevard Depo представил альбом UNhappy Meal
Новости, Новости — 5 июня, 16:45
Игра Mother Zina отправит иностранного журналиста в российскую панельку
Новости, Новости — 5 июня, 15:40
Lego выпустила самый большой набор в истории
Новости, Новости — 5 июня, 14:35
Вышел тизер шестой части «Ледникового периода»
Новости, Новости — 5 июня, 12:20
Рабочий отдельно, личный отдельно: почему люди снова покупают второй телефон
Новости, Новости — 4 июня, 19:56
Группа The Hatters представит новый проект на фестивале «Дикая мята»
Новости, Новости — 4 июня, 16:20
Арнольд Шварценеггер и Лиам Хемсворт снимутся в боевике The Kellys
8.2
Обсессия
7.1
Закулисье реальности
Эйфория
(3 сезон)
Пацаны
(5 сезон)
6.3
Who is Mr. Дуров
8.2
Бриджертоны
(4 сезон)