Окончательная модель основана на 10 распространенных музыкальных жанрах и может быть свободно использована через Huggingface.

Классификация музыкальных жанров — это фундаментальное и универсальное приложение во многих различных областях. Некоторые возможные варианты использования классификации музыкальных жанров включают:

  • системы музыкальных рекомендаций;
  • организация и обнаружение контента;
  • радиовещание и программирование;
  • лицензирование музыки и управление авторскими правами;
  • музыкальный анализ и исследование;
  • тегирование контента и обогащение метаданными;
  • звуковая идентификация и защита авторских прав;
  • музыкальное производство и творчество;
  • здравоохранение и терапия;
  • развлечения и игры.

Ниже я описываю сквозной процесс создания конвейера музыкальных жанров с машинным обучением и кратко описываю, как его использовать.

Эта модель является продолжением моей предыдущей модели тематического исследования, классификации речевого акцента:



Первый шаг — взять общедоступный набор размеченных музыкальных данных — GTZAN Dataset — Music Genre Classification | Kaggle, который содержит 1000 образцов 30-секундных аудиофайлов, равномерно распределенных по 10 жанрам:

  • блюз;
  • классический;
  • страна;
  • дискотека;
  • хип-хоп;
  • джаз;
  • металл;
  • поп;
  • регги;
  • камень.

Окончательный код доступен в виде блокнота Kaggle.

После загрузки и предварительной обработки аудиоданные передискретизируются до частоты 16 кГц, преобразуются в массив NumPy с использованием…