Благодаря плейлистам Spotify Hot Country и Country Nights я недавно вошел в необычную фазу прослушивания музыки в стиле кантри. Рок обычно больше мой жанр, так что для меня это было впервые. После того, как я сразу осознал, насколько привлекательной может быть страна, меня по-настоящему поразило то, что, похоже, было так упоминаний алкоголя и выпивки!

Возьмите эти вдохновляющие строки Криса Стэплтона ниже. Как вы думаете, он знает, что безалкогольные напитки тоже можно использовать в сравнениях?

Ты такой мягкий, как виски Теннесси,
Ты сладкий, как клубничное вино,
Ты теплый, как бокал бренди

Теннесси Виски - Крис Стэплтон

Или как насчет этих строк из Братьев Осборн. Неужели это не их вина?

Виноват в виски пиво
Виноват пиво виски
Виноват утро ночи

Это не моя вина - Братья Осборны

Когда я думаю о музыке в стиле кантри, пиво и виски являются частью ее образа в моей голове, но не в большей степени, чем рок или рэп / хип-хоп. Мне было интересно, слышу ли я больше упоминаний об алкоголе только потому, что я новичок в стране, или действительно есть измеримая разница в упоминаниях между жанрами.

Я думал, что все, что мне нужно сделать, чтобы узнать это:

  • Получите списки популярных песен в разных музыкальных жанрах на веб-сайте Billboard, на котором есть диаграммы для конкретных жанров, таких как рок, поп, кантри и т. Д.
  • Получить их тексты
  • Получите список слов, связанных с алкоголем и напитками
  • Посчитайте, сколько песен упоминают эти слова

Этот процесс, возможно, занял у меня немного больше времени, чем можно было бы указать в этих четырех коротких пунктах, но ниже приводится краткое описание процесса, анализа и результатов, которые вам (надеюсь) понравятся!

Сбор и очистка данных

Анализ пятилетних графиков

Первым шагом было создание набора данных песен для каждого жанра. Я решил использовать диаграммы на конец года на веб-сайте Billboard, поскольку они обычно состоят из 100 записей, поэтому я могу быть уверен, что они представляют то, что люди действительно слушают в этих жанрах. Это американские чарты, но, поскольку Америка имеет тенденцию устанавливать мировую тенденцию (нравится нам это или нет) и имеет самую большую аудиторию кантри-музыки, я считаю, что они являются лучшим источником данных для этого проекта.

На веб-сайте Billboard есть чарты для Рок, Кантри, Поп, R & B / Hip-Hop, Dance / Electronic, Christian, и я также решил включить не относящийся к жанру общий Hot 100 »для справки. Я не включил латинские или международные чарты, так как песни на других языках исказят результаты последующего анализа.

Вышеупомянутые ссылки относятся к графикам на конец 2017 года, но все они относятся как минимум к 2013 году. Я решил взять все последние пять лет, чтобы изучить тенденции с течением времени.

Я использую в основном «горячие» диаграммы для каждого жанра, кроме поп-музыки, у которой нет «горячих» диаграмм. Горячие диаграммы учитывают выступления на радио, физические продажи и трансляции, в то время как поп-чарт используется только для радиопередач. В любом случае они должны хорошо представлять, что люди слышат и слушают в каждом жанре.

Некоторые песни могут появиться более чем в одном чарте или за год. Я не удаляю дубликаты, так как не хочу изменять содержимое каких-либо диаграмм.

Я использовал библиотеку Python Beautiful Soup, чтобы извлечь имя песни и имя исполнителя для каждой записи диаграммы из html каждой веб-страницы. Это тот же HTML-код, который вы видите, когда нажимаете Ctrl + Shift + i на веб-странице в Chrome.

Я обнаружил некоторые проблемы, когда делал это, например, в диаграмме 2015 R & B / Hip-Hop всего 25 записей, тогда как в другие годы обычно их 100. Или что 2016 Hot 100 имеет только 99 записей, потому что № 87 отсутствует. Понятия не имею о причинах этих проблем, но я учел, что длины графиков могут быть разными, когда я буду проводить анализ позже.

Получение текстов для 2840 песен

Анализ диаграмм обнаружил 3019 записей, и мне удалось получить тексты для 2840 из них с помощью Genius.com's API. Вам просто нужно зарегистрироваться, и пользоваться им можно будет бесплатно. В своем коде я использовал пакет Python LyricsGenius, который упростил работу с API Genius.com.

Проблемы, которые у меня возникли на этом этапе, заключались в том, чтобы сопоставить имена песен и исполнителей, используемые Billboard, с именами, используемыми Genius. Например, было много проблем, когда песня была написана несколькими артистами. В Billboard было много способов комбинировать имена исполнителей, такие как «Featuring», «x» (например, Kygo x Selena Gomez), «With» и т. Д., Но Genius был гораздо разборчивее, поэтому мне пришлось пробовать разные комбинации.

В конце концов, время, потраченное на поиски этих проблем, того не стоило. 2840 - это 94% от общего числа заявок, поэтому я решил продолжить работу на этом этапе. Количество песен с текстами, найденных в таблице, указано ниже.

Рок: 483
Кантри: 490
Танцевальный / Электронный: 442
Поп: 240
Горячий 100: 476
R & B / Хип-Хоп: 379
Христиан: 322

Тот факт, что были обнаружены разные суммы, не влияет на последующие результаты, поскольку анализ сравнивает процентные значения.

Очистка текстов песен

Чтобы избежать множественного времени, множественного числа или вариаций слова, вызывающих пропущенный или неправильный счет, я использовал leammatisation для группировки слов по их корневой форме. Например, глаголы ходить, ходить и ходить будут сгруппированы в ходить.

Для того, чтобы это работало, все слова должны были быть помечены в их частях речи. Эти теги могут быть глаголами, прилагательными, наречиями или существительными / другими. Обычно вы передаете предложения в теггер части речи, но в этом случае из-за отсутствия знаков препинания в песнях я разбивал текст на строки и передавал их.

Для обеих этих задач я использовал библиотеку Python NLTK, и она оказалась очень успешной. До 6 слов были сгруппированы в общее исходное слово. Например, «иди», «идет», «ушел», «пошел», «гон» и «пошел» были сгруппированы так, чтобы просто «идти».

Анализ

Составление списка слов, касающихся употребления алкоголя и алкоголя

Я поискал уже существующий список ключевых слов, связанных с алкоголем, но, к сожалению, не нашел. В некоторых исследованиях, которые я обнаружил, использовались списки ключевых слов, но они не использовались. Так что я сделал свой собственный, используя высоконаучный метод придумывания всех ключевых слов, которые мог придумать, и поиск в Google синонимов, чтобы попытаться найти больше.

Я исключил из этого списка «выпивка» и «шот», поскольку они недостаточно специфичны для употребления алкоголя. Я сначала попробовал с ними, но они вызвали высокий процент ошибок. Это было особенно плохо для христианских песен, поскольку из 11 идентифицированных песен 8 оказались ложными из-за этих двух слов.

Окончательный список, который я составил, был:

пьян *, выпил *, алкоголь, алкоголь, похмелье, похмелье, ликер, коктейль, выпивка, выпивка, бутылка, пиво, сидр, эль, текила, водка, вино, джин, виски, скотч, ром, бурбон, шампанское, мохито, мартини, дайкири, jager, jagermeister, budweiser, miller, coors, heineken, bacardi, smirnoff, moet, hennessy, bar, pint, firewater, hootch, moonshine, spirits, swig, tipple

Drunk и drank не учитываются для глагола в прошедшем времени, так как слова drunk и drank будут преобразованы в пить. Однако они будут учитываться для любого другого использования, например как прилагательное в Я так пьян или как существительное в Я мог бы принести выпивку.

Измерение упоминаний об употреблении алкоголя и алкоголя

Я использую для измерения процент песен, в которых хотя бы раз упоминается слово, связанное с алкоголем или алкоголем.

Без лишних слов процент песен, упоминающих алкоголь в чартах Billboard:

Ух ты! В песнях кантри алкоголь упоминается гораздо чаще. 40% песен, в которых упоминается алкоголь, действительно показались мне высокими, поэтому я вручную проверил кантри-песни 2017 года и обнаружил только одно ложное срабатывание (вызванное «бутылкой» в твоей песне Рассела Дикерсона), что, на мой взгляд, является приемлемым уровнем ошибок. Высокий результат имеет больше смысла, если учесть, что для этого анализа использовались графики на конец года. Таким образом, это не обязательно означает, что 40% всех песен кантри упоминают алкоголь, это только 40% хитов последних пяти лет.

Проверка гипотез, если разница значима

Пора получить ответ на мой первоначальный вопрос: чаще ли в песнях кантри упоминается алкоголь и алкоголь, чем в других жанрах.

Как показано на диаграмме ниже, между кантри и другими жанрами явно есть определенная разница. Однако, если вы измеряете две разные группы, вы ожидаете, что результат будет немного отличаться только из-за случайных вариаций. Я хочу подтвердить, что разница достаточно велика, чтобы быть статистически значимой, что является еще одним способом сказать, что она вряд ли будет вызвана случайной вариацией.

Я опускаю результаты тестов Hot 100 и Christian Chart для этого теста, так как Hot 100 не привязан к конкретному жанру, а христианский график является исключением из-за того, как мало в нем упоминается алкоголь, и, по крайней мере, для меня, это не мейнстримный жанр.

Я собираюсь проверить статистическую значимость с помощью критерия Хи-квадрат на независимость, поскольку данные являются категориальными данными. Это категориальные данные, потому что в песнях либо упоминается алкоголь, либо нет, промежуточных значений нет. По совпадению, это тот же тест, который я использовал в предыдущем посте для измерения неприятия потерь в штрафах.

Тест выводит индикатор достоверности, называемый «p-значением», и если он ниже выбранного мной уровня значимости, то можно сказать, что измерения разные, и измеренная разница не вызвана случайным отклонением. Я выбираю уровень значимости 0,05, что означает лишь 5% -ную вероятность ошибочного вывода. Нулевая гипотеза заключается в том, что нет никакой разницы между количеством песен, в которых упоминается алкоголь в музыке кантри, и другими жанрами.

В результате получилось:

P-значение = 2,71698301e-34

Вывод: разница значительна

e-34 означает, что после десятичной точки стоит 33 нуля перед началом четности 271…. Это крошечный результат для значения p, намного ниже требования 0,05! Нулевая гипотеза может быть отклонена и можно сделать вывод, что в песнях кантри алкоголь чаще упоминается, чем в других жанрах.

Если посмотреть на процент песен, в которых упоминается алкоголь, по годам, разница еще больше очевидна, поскольку можно увидеть, что кантри-музыка опережает каждый год.

Забавные факты

Какие бывают разные жанры выпивки?

Такие напитки, как скотч и бурбон с очень низким упоминанием, были исключены из этой таблицы.

Это был хит Psy и Snoop Dogg Hangover с невероятными 154 упоминаниями. Почти все эти упоминания связаны с похмельем, повторяющимся снова и снова в припеве.

Ключевое слово какой кантри-песни упоминается чаще всего?

Это была трехсторонняя ничья: по 14 упоминаний Drunk On A Plane Диркса Бентли, Drunk On Your Love Бретта Элдриджа и Tennessee Whisky Криса Стэплтона. Tennessee Whiskey также удалось попасть в чарты 2015, 2016 и 2017 годов.

Есть ли тенденция в упоминании алкоголя?

Да, упоминания алкоголя выросли на 5 процентных пунктов за последние 5 лет.

Наборы данных диаграмм и текстов песен доступны в виде файлов csv вместе с рабочими книгами python, которые их сгенерировали, на моем Github здесь. Гистограммы были составлены в рабочих тетрадях Tableau, которые можно скачать здесь.