Дата: декабрь 2020 г.
Клиент: Курсовой проект Калифорнийского политехнического университета
Тег: Анализ данных|Машинное обучение|Музыка| R |School
Скачать: Ссылка

На курсах Cal Poly мы должны найти интересующий нас набор данных и тему. Затем выполнить процесс ETL и использовать модель машинного обучения для проведения анализа. Что касается меня, поскольку я очень люблю музыку, я нашел набор данных Spotify на Kaggle, а затем захотел проанализировать музыкальные данные. Кроме того, есть переменная под названием «Популярность», поэтому я решил использовать неконтролируемую модель машинного обучения для прогнозирования популярных саундтреков.

В каждом саундтреке будут разные композиции, такие как разные жанры, темп, тональность и так далее. Для любой стриминговой сцены или звукозаписывающей компании, думаю, будет интересен вопрос: «Какие факторы влияют на популярность музыки на Spotify». Если бы мы могли знать эти факторы, у этих компаний было бы больше шансов получить прибыль.

Исследовательский анализ данных и корреляция

Прежде всего, я сделаю ETL. К счастью, исходные данные чистые и аккуратные, а также меньше пропущенных значений, поэтому я могу пройти этот этап. Во-вторых, я бы сделал несколько простых статистических графиков, таких как гистограммы или плотность распределения, чтобы просмотреть данные и сделать несколько простых сравнительных выводов. Например, мы можем знать, что саундтреки в жанре поп-музыки имеют самые высокие средние значения популярности.

Затем я начинаю работать над корреляцией. Поскольку мы будем обучать модель, я хотел бы избежать появления эндогенной переменной в той же модели. Кроме того, просмотр диаграммы для просмотра распределения независимых и зависимых переменных может привести к отбрасыванию некоторых переменных, которые находятся слишком близко к зависимой переменной, и сделать прогноз модели бесполезным.

Моделирование

После завершения всего процесса ETL данных и удаления бесполезной переменной я начинаю обучать модель и предсказывать популярные саундтреки. В части моделирования я пробую разные модели, чтобы увидеть, какая переменная даст мне наибольшую точность. Я разделил данные на обучающий набор и тестовый набор. Затем я обучаю 5 разных моделей, чтобы увидеть, какая из них даст нам наибольшую точность. Наконец, я обнаружил, что в целом точность модели составляет 90%. Однако наивная байесовская модель является лучшей с чувствительностью 76,72 %. Кроме того, есть некоторые идеи, которые можно использовать. Например, жанр является наиболее важной переменной. Артисты должны сильно постараться, чтобы написать песни, которые позволят машине Spotify распознать их как поп-песни.

Чтобы получить подробный анализ, вы можете просто скачать ссылку вверху и посмотреть, как идет анализ.