«Эффект коктейльной вечеринки» описывает способность людей поддерживать беседу в шумной обстановке, слушая, что говорит их собеседник, и при этом отфильтровывая прочую болтовню, музыку, окружающие шумы и т. Д. Мы делаем это естественно, но проблема была широко распространена. изучался в области машинного обучения, где разработка методов распознавания звуков окружающей среды и разделения источников, которые могут настраиваться на один звук и отфильтровывать все остальные, является предметом исследования.

Исследователи MIT CSAIL недавно представили свою систему PixelPlayer, которая научилась определять объекты, издающие звук в видео. Система использует глубокое обучение и была обучена 60-часовым просмотром музыкальных представлений, чтобы определить естественную синхронизацию визуальной и звуковой информации.

Команда обучила глубокие нейронные сети концентрироваться на изображениях и аудио и определять местоположения изображений на уровне пикселей для источников звука в видео.

Архитектура PixelPlayer включает в себя сеть анализа видео, отвечающую за отделение визуальных функций от видеокадров, сеть анализа звука, которая кодирует входной аудиосигнал, и сеть синтезатора звука, которая предсказывает звуки, комбинируя визуальные и звуковые функции на уровне пикселей.

Самоконтролируемое обучение PixelPlayer по смешиванию и разделению также позволяет ему аннотировать характеристики инструментов без ручного вмешательства. Член команды Ханг Чжао, бывший стажер NVIDIA Research, говорит, что система глубокого обучения «узнает, какие объекты издают какие звуки».

Для обучения модели исследователи использовали набор данных MUSIC (мультимодальные источники комбинаций инструментов), созданный из видеороликов YouTube. MUSIC содержит 714 видео без постобработки с музыкальными соло и дуэтами, а также 11 категорий инструментов. Вычислительная мощность графического процессора Nvidia Titan V позволяла CNN анализировать видео на очень высокой скорости. «Это стало известно примерно за день», - говорит Чжао. PixelPlayer теперь может идентифицировать более 20 инструментов.

PixelPlayer может извлекать звуковые дорожки отдельных инструментов, что позволяет инженерам, например, изолировать и настраивать различные уровни каждого инструмента. Чжао добавляет, что «система также может использоваться роботами для распознавания звуков окружающей среды».

Другие исследовательские группы решают проблему коктейльной вечеринки, используя различные подходы, включая разработку методов глубокого обучения для слуховых аппаратов.

Доклад MIT CSAIL Звук пикселей находится на Arxiv, и команда представит свою работу на Европейской конференции по компьютерному зрению в сентябре. Дальнейшие демонстрации можно найти на http://sound-of-pixels.csail.mit.edu/.

Журналист: Фаню Цай | Редактор: Майкл Саразен

Подпишитесь на нас в Twitter @Synced_Global, чтобы узнать больше об искусственном интеллекте!

Подпишитесь на Synced Global AI Weekly, чтобы получать подробные технические новости, обзоры и анализ! Нажмите здесь!