К интерпретируемым музыкальным тегам с самовниманием

Новая модель Deep Sequence для музыкальных тегов с лучшей интерпретируемостью

Это резюме исследования - лишь одно из многих, которые еженедельно распространяются в информационном бюллетене для ученых в области ИИ. Чтобы начать получать еженедельную рассылку, зарегистрируйтесь здесь.

Машинное обучение позволило добиться огромных успехов в области компьютерного зрения. Несколько сетей в этой области успешно продемонстрировали свою гибкость в области поиска музыкальной информации (MIR). Архитектуры глубокого обучения с использованием CNN и RNN в настоящее время являются самыми современными во многих задачах MIR, включая обнаружение ударов, транскрипцию музыки и создание музыки.

Аналогичным образом, самовнимание достигло успешных характеристик классификации с возможностью интерпретации в задачах классификации видео, классификации текста и музыкальных тегов.

Модель глубокой последовательности для музыкальных тегов, основанная на внимании к себе

Сверточные рекуррентные нейронные сети (CRNN) сейчас очень успешны в классификации документов, классификации изображений и транскрипции музыки, а также в автоматической маркировке музыки. Исследователи теперь предлагают основанную на самовнимании модель глубокой последовательности для музыкальных тегов.

Предлагаемая модель состоит из неглубоких сверточных слоев, за которыми следуют уложенные друг на друга кодеры Transformer. По сравнению с традиционными подходами, использующими полностью сверточные или рекуррентные нейронные сети, новая архитектура более интерпретируема.

Оценка модели с помощью MagnaTagATune и набора данных Million Song дает конкурентные результаты. Модель также демонстрирует интерпретируемость с помощью визуализации тепловой карты и тепловых карт вклада по тегам.

Возможное использование и эффекты

Благодаря полученной интерпретации модель может помочь получить лучшую интуицию для лучшего проектирования модели. И, поскольку предлагаемая архитектура не зависит от конкретной задачи, ее можно расширить для других задач MIR, включая обнаружение ударов, классификацию ритмов или транскрипцию музыки.

Код доступен здесь.

Подробнее: https://arxiv.org/abs/1906.04972

Спасибо за чтение. Прокомментируйте, поделитесь и не забудьте подписаться на нашу еженедельную рассылку, чтобы получать самые свежие и интересные исследования! Вы также можете подписаться на меня в Twitter и LinkedIn. Не забудьте 👏, если вам понравилась эта статья. Ваше здоровье!