Я был взволнован, увидев WSJ с участием Shazam. 6-минутное видео объясняет, как работает Shazam, хотя и в простой форме.



Shazam — это ранний пример использования машинного обучения для решения узкой, но популярной задачи — идентификации названия песни, которую вы слышите в магазине или кафе, почти в реальном времени. Хотя концепция проста, подход машинного обучения не что иное, как непрофессиональное описание концепции «совпадения отпечатков пальцев».

С момента основания Shazam область преобразования аудио и звуковых данных в звуковые волны с использованием анализа Фурье продвинулась вперед. У нас гораздо больше возможностей выполнять это преобразование Фурье, распараллеливать обработку и сопоставление на основе сходства и делать это почти в реальном времени, отбрасывая данные более детально.

Подход, который использует Shazam, теперь применяется во многих различных случаях использования. Например, аналогичный подход используется в голосовой биометрии и идентификации, в рекомендательных системах (нахождение совпадений не по наибольшему сходству, а по ближайшим соседям или в одном кластере), генерации звука/аудио/музыки и так далее.

Я рад видеть больше прогресса в применении машинного обучения к аудиоданным, особенно в использовании и объединении других машинного обучения и технологических инноваций, таких как граничные вычисления и федеративное обучение.

Вот хороший пост о применении машинного обучения к аудиоданным.