Новости — 12 декабря 2021, 10:01

Нейросеть научилась определять звуки в беззвучных видео

Искусственный интеллект обладает множеством способностей. С одной стороны, стремительное развитие технологий может кого-то пугать, а с другой — это серьезно облегчает жизнь и двигает прогресс. Так, разработчики из Nvidia представили нейросеть, которая реалистично воссоздает человеческий голос, а еще через какое-то время слушатели впервые насладились законченной 10-й симфонией Бетховена. Все благодаря научному сотруднику из Федеральной политехнической школы Лозанны EPFL Флориану Коломбо, который смог воссоздать недостающий фрагмент музыкального произведения. И вот у Nvidia новая разработка, которая и вовсе кажется магией: нейросеть научилась подбирать звук для беззвучных видео. 

#INSERT_ARTICLE#

Ученые из Университета Карнеги — Меллона с компанией Runway, разрабатывающей компьютерное программное обеспечение, представили технологию Soundify. Она способна подставлять подходящие звуки в видео, у которого отсутствует аудиодорожка. Над проектом работали Дэвид Чуан-Эн Лин, Анастасис Германидис, Инин Ши, Кристобаль Валенсуэла и Николас Мартеларо.   

Чтобы сопоставить звук с изображением, ученые использовали отдельные программы для анализа аудио и видео. Прежде всего, они разделили исходный ролик по кадрам, анализируя цветовую гистограмму между соседними изображениями. Однако этого было недостаточно, чтобы нейросеть под названием CLIP смогла подставить звук. Далее исследователи классифицировали звуки на две категории. К первой они отнесли объекты на видео, которые производят конкретные четкие звуки. Ученые назвали их «эффектами». К ним отнесли в том числе звонок велосипеда, щелчок камеры и звук клавиатуры. Во вторую же группу вошли фоновые шумы: например, звуки кафе, аэропорта или улицы. Для определения аудио использовали библиотеку звуков Epidemic Sound, в которой собрано более 90 тысяч шумов.

#INSERT_ARTICLE#

Но и на этом работа ученых не закончилась. Следующим шагом они пропустили изображение через нейросеть, которая сделала метки на каждом кадре. Таким образом нейросеть подобрала пять наиболее подходящих звуков для сцены. По задумке создателей, технология изначально предлагает подставить на видео конкретный звуковой эффект, который ей кажется наиболее удачным, но пользователь может самостоятельно поменять его на один из пяти предложенных вариантов. 

На последнем этапе алгоритм учитывает временные интервалы в видео, когда звук должен воспроизводиться, поскольку, как отметили в отчете ученые, объект может появляться и исчезать из кадра, удаляться и приближаться в видео. Несмотря на то, что технология уже хорошо развита, исследователям все еще есть к чему стремиться. К примеру, сейчас фоновый звук не получится настроить, если вдруг внезапно кадр леса сменится на городскую улицу. Так что, если изначально пользователь выбрал для изображения звук водопада, то нейросеть не додумается заменить его в следующем кадре с другой средой.

#INSERT_ARTICLE#

Подписывайтесь на наш Telegram-канал
Фото: Pexels
* Деятельность компании Meta Platforms Inc. (Facebook и Instagram) на территории РФ запрещена
** Признан иноагентом на территории РФ
Читайте также
Музыка — 21:00, 4 марта 2026
«Новая русская волна»: чем она была, а чем так и не стала?
Новости, Новости — 4 марта, 21:00
ZOLOTO выпускает концертный фильм «Перевоплотиться»
Новости, Новости — 4 марта, 19:15
Появился треклист нового альбома BTS Arirang
Новости, Новости — 4 марта, 18:33
Московская неделя моды пройдет с 14 по 19 марта
Бизнес — 4 марта, 15:45
Сцепка с корнями. Интервью с соосновательницей бренда ARNY PRAHT Анной Прахт
Новости, Новости — 4 марта, 14:40
Мейси Стелла и Татум Грейс Хопкинс исполнят главные роли в экранизации Life Is Strange
Новости, Новости — 4 марта, 13:15
Warner Bros. запускает фильм по «Игре престолов» об Эйгоне I Таргариене
Новости, Новости — 4 марта, 12:00
В Москве пройдет фестиваль научного кино «ФАНК»
Новости, Новости — 4 марта, 10:54
IOWA, «Сова» и Loqiemean: фестиваль «Стереолето» объявил вторую волну артистов
Новости, Новости — 4 марта, 09:45
Марлон Уайанс намерен вернуть дерзость франшизе «Очень страшное кино»
Кино — 3 марта, 19:50
Ограниченная палитра. Разбираемся, зачем делать фильмы черно-белыми
Новости, Новости — 3 марта, 18:10
Apple представила бюджетный iPhone 17e
Новости, Новости — 3 марта, 17:15
Стриминги HBO Max и Paramount+ объединят в одну платформу
Новости, Новости — 3 марта, 16:05
Евгений Стычкин снял сериал «Хоспис» о врачебной гордости и принятии смерти
Новости, Новости — 3 марта, 14:35
Obgon выпустил альбом Fast Track. Релиз вдохновлен московскими автомагистралями
Новости, Новости — 3 марта, 12:35
«Сират» стал одним из лидеров национальной кинопремии Испании «Гойя»
Новости, Новости — 3 марта, 10:40
SLAVA MARLOW, «ЛАУД» и Хаски: фестиваль New Star Camp объявил программу
Новости, Новости — 3 марта, 09:00
Стартовали съемки третьего сезона сериала «Телохранители»
Новости, Новости — 2 марта, 20:05
Подписи к гифкам и стикеры из фото: Telegram выпустил обновление
Новости, Новости — 2 марта, 19:50
Звезда «Во все тяжкие» появился в проекте «Miyagi & Эндшпиль»
Новости, Новости — 2 марта, 18:40
Netflix выпустит аниме «Одуванчик» по дебютной манге автора «Гинтамы»
Новости, Новости — 2 марта, 17:40
В московском боулинге «Дорожка» отметят День чувака
Все звёзды и инфлюенсеры
Новости, Новости — 2 марта, 16:50
В Лос-Анджелесе прошла премия Гильдии киноактеров США
Новости, Новости — 2 марта, 15:40
Зендея и Том Холланд тайно поженились
Новости, Новости — 2 марта, 14:30
Комиксист Виталий Терлецкий стал участником «Битвы экстрасенсов»
Новости, Новости — 1 марта, 10:34
В Японии разработали первого ИИ-робота-буддиста
Новости, Новости — 28 февраля, 22:15
После десятилетней паузы Бруно Марс вернулся с сольным альбомом
Новости, Новости — 28 февраля, 20:55
Аниме «Сказание об Аканэ» получило трейлер и дату релиза
Кино — 28 февраля, 17:33
Репутационные издержки. Почему поросенок Фунтик — лучший пример имидж-менеджмента
Образ жизни — 27 февраля, 19:38
24 часа в Казани. Куда сходить, чем заняться и где поесть
Новости, Новости — 27 февраля, 15:15
Blackpink выпустили мини-альбом DEADLINE