Введение

Сверточные нейронные сети (CNN) широко используются для обнаружения объектов. От LeNet, разработанной Яном Лекуном в 1998 г., до VGG-16 (2014 г.) и You Only Look Once (YOLO), CNN способна обнаруживать объекты с относительно высокой точностью и применяется в таких приложениях, как автопилот, распознавание лиц. и т. д. Помимо обнаружения объектов, распознавание звука — это еще одна тема, которая интересует отрасли. Например, Amazon Alexa, Google Home, Apple Siri, Cortana — все эти приложения требуют эффективного распознавания звука при обеспечении высокой точности. В настоящее время, с развитием CNN в обнаружении объектов, можем ли мы использовать CNN для достижения эффективного способа обнаружения звука?

Спектрограммы

Чтобы распознавать звук с помощью сверточной нейронной сети, в первую очередь нужно понять принципы и особенности графика звука, спектрограммы. Спектрограмма — это визуальное представление спектра звуковых частот по мере их изменения во времени. Он широко используется в области музыки, радиолокации, обработки речи. Две оси спектрограммы представляют разные значения: время и частоты. Существует еще одно измерение, обозначающее амплитуду, и оно часто представляется как интенсивность или цвет на изображении. Обратите внимание, что вертикальную и горизонтальную оси можно переключать, чтобы добиться лучшей демонстрации в конкретных приложениях. Анализируя спектрограмму, мы можем дифференцировать источник звука, например, мужчину или женщину, и, наконец, придумать распознавание звука. На рисунке ниже приведен пример спектрограммы.

Трудности обнаружения спектрограмм в CNN

Теперь мы знаем значение спектрограммы, но почему мы так мало слышали о распознавании спектрограммы в CNN? В этом разделе я объясню некоторые трудности применения CNN к спектрограммам.

Прозрачность

На изображении объекта произвольный пиксель принадлежит только одному объекту. Если несколько объектов расположены в одном месте на изображении. Он покажет только тот объект, который находится впереди. На спектрограмме точка представляет собой частоту звуковой волны в определенный момент. Однако нельзя предполагать, что эта наблюдаемая частота принадлежит одному источнику. Величина этой частоты может накапливаться разными звуками. Кроме того, добавление звуковых волн включает в себя различные механизмы, такие как фазовая компенсация. Следовательно, CNN не может различать, исходит ли конкретная частота в определенное время из одного источника или из нескольких источников.

Значение осей

В CNN слои свертки и слои пула используют двумерные фильтры, которые разделяют веса по измерениям x и y[4]. Это связано с тем, что в изображении объектов две оси обозначают одно и то же значение — расстояние. Он имеет эквивалентные эффекты при перемещении по вертикали и горизонтали. Еще одна особенность заключается в том, что объект на изображении не зависит от его местоположения на изображении. Например, машина может находиться в центре изображения и не изменится, если мы переместим ее в угол.

Однако оси на спектрограмме имеют разное значение. Один соответствует частоте, а другой представляет время. Движение по оси времени означает появление звука. Однако движение по оси частот показывает множественность звуков в один момент. Более того, если мы изменим положение определенной формы звука на спектрограмме, это будет уже не тот звук, который мы описываем при обнаружении объектов. Двигаясь по оси частот, мужской голос может измениться на женский. При движении по оси времени он может представлять иные значения, чем предыдущий.

Звуки не местные

При обнаружении объекта на изображении похожие соседние пиксели, вероятно, принадлежат одному и тому же объекту. Например, лицо состоит из пикселей цвета кожи. Однако звуки не имеют этой функции. Например, ниже приведена спектрограмма играющей скрипки:

Как показано на рисунке, звук от источника генерирует несколько гармонических волн, и эти гармонические волны не являются локальными. Он имеет основную частоту. Тогда другие гармонические волны кратны этой основной частоте. Например, основная частота женского голоса может составлять 200 Гц. Следующая гармоническая волна будет 400 Гц, затем 600 Гц и так далее. Изображение в реальности, много звуков происходит одновременно. Спектрограмма будет содержать много информации, и гармонические волны разных звуков взаимодействуют друг с другом. Вряд ли можно использовать CNN непосредственно для спектрограммы.

Звук по своей сути последовательный

При обнаружении объектов, когда мы сканируем всю сцену, каждый объект вряд ли изменит свое местоположение или изменится незначительно. Достижением в обнаружении объектов будет параллельная обработка изображений в разные моменты времени. Однако Звуки не существуют как статические объекты, которые можно наблюдать параллельно, они приходят как последовательности давления воздуха, и смысл этих давлений должен устанавливаться с течением времени[6]. Кроме того, звуки более последовательные, поскольку для полного понимания звуков требуется время.

Запуск в обнаружении спектрограммы в CNN в соответствии с этими четырьмя принципами

Похоже, что использование CNN в распознавании звука сопряжено с множеством трудностей, но люди все еще пытаются преодолеть эти препятствия, поскольку CNN уже достаточно зрелы в обнаружении объектов. Чтобы применить CNN к спектрограмме, сначала мы можем начать с одного источника. Единый источник предотвращает прозрачность звуков на этапе обучения. При попытке определить, находится ли источник на спектрограмме, нам нужно переопределить фильтры, используемые CNN, чтобы предотвратить проблему различных значений осей, описанную выше. В этой ситуации ось частоты — это часть, на которой мы сосредоточимся, поэтому мы должны уменьшить особенность оси времени. При обнаружении только одного источника звука эффекты, создаваемые комбинациями гармонических волн, вероятно, уменьшаются. Последовательная часть означает, что на этапах классификации необходимо также учитывать ось времени.

Ссылка

[1] Л. А. Гэтис, А. С. Экер и М. Бетге, «Передача стиля изображения с использованием сверточных нейронных сетей», на конференции IEEE 2016 г. по компьютерному зрению и распознаванию образов (CVPR), 2016 г., стр. 2414–2423.

[2] Ю. Ли, Н. Ван, Дж. Лю и X. Хоу, «Демистификация переноса нейронного стиля», январь 2017 г.

[3] П. Верма и Дж. О. Смит, «Передача нейронного стиля для аудиоспектрограмм», январь 2018 г.

[4] Л. Уайз. 2017. Представления звуковой спектрограммы для обработки с помощью сверточных нейронных сетей. Материалы первого международного семинара по глубокому обучению и музыке совместно с IJCNN. Анкоридж, США. Май 2017 г. 1(1). стр. 37–41. DOI: 10.13140/RG.2.2.22227.99364/1

[5] Дж. Б. Аллен, «Как люди обрабатывают и распознают речь?», IEEE Trans. Речевой аудиопроцесс., т. 1, с. 2, нет. 4, стр. 567–577, 1994.

[6] https://towardsdatascience.com/whats-wrong-with-spectrograms-and-cnns-for-audio-processing-311377d7ccd