Постоянные читатели Gab 41 знают, что Lab 41 уже некоторое время изучает шумоподавление монофонического звука - удаление шума из аудиосигналов, собранных с помощью одного микрофона. В нашем предыдущем сообщении в блоге Сравнение источников подробно описывается наш подход к исследованию. Ранее в этом году нас пригласили представить нашу работу на конференции Interspeech в Хайдарабаде, Индия.

Ключевым направлением нашей работы на сегодняшний день является устранение динамического шума - источников шума, которые не повторяются или возникают только спорадически. Эта категория шума представляет проблему для традиционных методов шумоподавления, но может быть устранена с помощью современных систем шумоподавления с машинным обучением. Как описано в вышеупомянутом посте, мы решили моделировать источники динамического шума, комбинируя короткие клипы уличного шума с чистыми записями людей, читающих отрывки текста. Это известно как «аддитивный шум» и является стандартным методом имитации шумных аудиоданных.

Полученные таким образом смоделированные данные отлично подходили для обучения шумоподавителей удалению нестационарного шума, но они не могли уловить тонкости акустики реальной комнаты. Такие эффекты, как реверберация, может быть трудно смоделировать, а синтез реалистичных данных микрофона в дальней зоне, как известно, является сложной задачей. Эта потребность в обучающих данных, содержащих естественный шум, побудила нас создать набор данных Voices Obscured in Complex Environment Settings (VOiCES) в сотрудничестве с SRI. Вы можете узнать больше о наборе данных VOiCES здесь. Корпус VOiCES был собран путем записи воспроизводимой речи и шума в реальных помещениях с различными акустическими профилями. Эти записи в дальней зоне, собранные с помощью нескольких микрофонов, размещенных по всей комнате, фиксируют естественную реверберацию, регулируемый отвлекающий шум (телевидение, музыка или лепет), неконтролируемый динамический шум (трубы, люди, выходящие за пределы комнаты и т. Д.) И статический шум. (в основном светильники и HVAC).

Благодаря нашим мощным моделям шумоподавления и нашему новому набору данных с реалистичным шумом следующий шаг казался очевидным: давайте посмотрим, насколько хорошо наши модели удаляют этот новый вид шума. Как оказалось, они были значительно менее эффективны при столкновении со сложным естественным шумом, а не с простым наложением двух форм волны, наблюдаемым в аддитивном шуме.

Модели шумоподавления, обученные на аддитивном шуме, плохо работали со звуком в дальней зоне.

Вероятно, существует несколько причин такого падения производительности: VOiCES использует другой набор источников шума, чем аддитивно сгенерированные данные. Наши модели изначально были обучены с использованием шума из набора данных Urban8K, коллекции записей, сделанных на улицах Нью-Йорка. Есть некоторое совпадение с «отвлекающими» шумами, используемыми в VOiCES - например, у обоих есть клипы движения и автомобильные гудки - но есть много видов звуков, которые появляются только в одном из двух наборов данных (например, отбойные молотки в Urban8K и звук телевидение в VOiCES). В частности, VOiCES использует человеческую речь как одну из категорий отвлекающих факторов, тогда как наш исходный набор данных аддитивного шума этого не делал - неудивительно, что этот класс шума особенно сложно удалить.

Кроме того, диапазоны отношения сигнал / шум (SNR) варьируются между двумя наборами данных. В наших приложениях SNR описывает относительную громкость динамика и шума с более высоким SNR, представляющим более чистый звук. В нашем исходном наборе данных SNR варьировались от -5 до +5 дБ, в то время как в VOiCES среднее SNR для удаленного звука составляет 20 дБ… Это означает, что VOiCES в среднем менее шумный - и все же наши модели работали хуже. Что с этим?

Этот вывод действительно имеет смысл - главное, что наши модели обучаются на данных с определенным диапазоном отношения сигнал / шум и с определенным видом нестационарного шума. Рискуя антропоморфизмом - они ожидают, что получаемые ими данные попадают в этот диапазон, и если это не так, они могут чрезмерно скорректировать и в конечном итоге исказить ввод, а не ослабить его.

Наконец, что наиболее важно, набор данных VOiCES содержит множество сложных типов шума, которых просто нет в наших исходных данных. В конце концов, захват примеров этих типов шума, которые отсутствуют в наших исходных данных аддитивного шума ближнего поля, был в первую очередь мотивацией для создания VOiCES. Какими бы ни были причины, наши существующие модели были не очень хороши для шумоподавления VOiCES. Хотя этот негативный результат заслуживает внимания сам по себе, мы планируем продолжить изучение других подходов к шумоподавлению естественных записей в дальней зоне.

Lab41 - это лаборатория Кремниевой долины, в которой эксперты из разведывательного сообщества США (IC), академических кругов, промышленности и In-Q-Tel собираются вместе, чтобы лучше понять, как работать с большими данными и, в конечном итоге, использовать их.

Узнайте больше на lab41.org и подпишитесь на нас в Twitter: @ _lab41