Анализ данных демократических дебатов
Кто говорит и что говорят?
Поскольку сезон предварительных выборов Демократической партии накаляется, и количество дебатов растет, может быть трудно следить за тем, что говорят кандидаты. Однако благодаря стенограммам онлайн-дебатов довольно легко найти каждое сказанное слово.
Вместо того, чтобы выполнять утомительное чтение этих стенограмм, давайте обработаем и проанализируем текстовые данные, чтобы выяснить, что же произошло на данный момент.
Сбор и обработка данных
Ниже приведены 5 шагов, которые я предпринял для получения и обработки данных для анализа. Я бы посоветовал вам пропустить этот раздел, если вас не интересуют технические детали:
- Скопировал текст для каждой дискуссии с веб-сайта Rev.com и сохранил данные в строке Python.
- Разделите каждую строку дебатов на пустые места и создайте список ораторов и список связанных с ними цитат.
- Заархивировал списки выступающих и цитат вместе и преобразовал их в фрейм данных pandas, где каждая строка представляет собой одну непрерывную строку кандидата.
- Объединили DataFrames дебатов вместе, добавив идентификатор для каждой дискуссии.
- Очищенные и стандартизированные имена кандидатов.
Анализ
Кто говорил?
Давайте сначала посмотрим на уровень участия каждого кандидата в дебатах. Чтобы измерить участие, мы рассчитаем% от общего количества слов, произнесенных каждым кандидатом. Мы включим только участников, которые участвовали в большинстве дебатов, и исключим первые два обсуждения, потому что оба они проходили в течение двух ночей.
Первое, что бросается в глаза, - это сам объем дебатов. Из почти 4000 награжденных всего 65 делегатов кандидаты уже 9 раз выходили на сцену. Также стоит отметить, что темпы обсуждения увеличились с одного обсуждения в месяц в конце 2019 года до одного обсуждения каждые две недели в 2020 году.
По мере того, как частота дебатов участилась, количество выступающих сузилось. В дебатах № 3 разница между кандидатом, выступающим с наибольшим количеством голосов (Байден), и нижним кандидатом (Сандерс) составила 12%. К девятым дебатам это было всего 3% - по сути, пять исходов.
Вероятно, это результат двух вещей. Во-первых, количество участников сузилось, и модераторам стало проще обеспечить кандидатам равное время выступления. Во-вторых, кандидаты стали более активными, поскольку ставки в последние недели выросли.
Еще одна интересная тенденция заключается в том, что для ряда кандидатов процент произнесенных слов коррелирует с основной успеваемостью.
Самым ярким примером этого является Элизабет Уоррен, чье резкое снижение с 22% в октябре до менее 13% в феврале отразило ее падение процента произнесенных слов с 24% до 14%.
Хотя здесь сложно определить какую-либо причинно-следственную связь, у этой корреляции может быть несколько причин. Возможно, модераторы корректируют свое поведение, задавая вопросы, в зависимости от того, кто лидирует в опросах. Или, может быть, отсутствие агрессивности со стороны кандидата отпугивает потенциальных избирателей. Наконец, может случиться так, что кандидаты склонны бросать вызов и провоцировать конкурентов, которых они считают своей самой большой угрозой.
Независимо от причины, вполне вероятно, что команда Уоррена уловила эту тенденцию раньше, чем в Неваде, где она занимала второе место среди всех кандидатов.
С другой стороны, Берни Сандерс увидел экспоненциальный рост среднего показателя опросов по стране с сентября по февраль, поскольку его участие в дебатах неуклонно росло:
Что они говорили?
Теперь, когда мы посмотрели, кто говорил, давайте почувствуем, о чем они говорили.
Сначала мы рассмотрим облако слов, которое показывает нам самые популярные слова, используемые в дебатах между кандидатами. Я исключил стоп-слова - часто используемые слова, не несущие особой семантической ценности - и применил метод, называемый лемматизацией, чтобы свести слова к их основному значению, независимо от их части речи.
Здесь нет больших сюрпризов - кандидаты пытаются обратиться к людям и объяснить, что они думают и что они собираемся сделать как президент, чтобы эта страна лучше.
Возможно, более глубокий анализ мог бы заключаться в том, чтобы посмотреть, как использование слов варьируется в зависимости от кандидата. Ниже я создал тепловую карту некоторых из наиболее часто встречающихся слов и того, как часто каждый кандидат их использовал. Чем темнее цвет, тем чаще кандидат использовал это слово.
Давайте пробежимся по 10 наиболее интересным словам и выводам:
- Люди: Сандерс чаще всего использует это слово. Это имеет смысл, учитывая тот факт, что его считают популистским кандидатом, стремящимся начать политическую революцию.
- Президент: Буттигиг чаще всего использует слово «президент» - возможно, как стратегию, которую следует рассматривать как наиболее «президентскую».
- Подумайте: Клобучар побеждает в этом с большим успехом. Она часто предваряет свое мнение фразой «Я думаю». Думаю, это скорее стилистическая вещь, чем неуверенность.
- Потребность: Уоррен позиционирует себя как способный решать проблемы, знающий, что нужно стране и ее народу. Возможно, именно поэтому она больше всего использует слова «семья» и «работа».
- Трамп: Уоррен и Байден реже упоминают имя президента. Интересно, является ли это намеренным шагом, учитывая, что Трампу, кажется, выгодно упоминание имени, как хорошего, так и плохого.
- Готово. Байден и Клобучар много говорят о том, что они сделали. Это имеет смысл, поскольку большая часть их привлекательности - это опыт. Байден был вице-президентом в течение 8 лет и сенатором с 1972 по 2008 год. Клобучар три срока занимал пост сенатора в Миннесоте и является одним из самых активных в сенате. Это серьезное отличие от кандидатов с менее традиционным опытом, таких как Буттигиг или Штайер.
- Факт. Байден очень часто употребляет фразу-заполнитель «фактически» - более чем в два раза чаще, чем употребляющий это слово на втором месте.
- Климат. .
- Здравоохранение: Сандерс возглавляет эту категорию. Он является кандидатом с самым уникальным планом здравоохранения - медицинской помощью для всех, - и ему пришлось потратить больше всего времени на защиту его стоимости и жизнеспособности. Уоррен, который использует слово здравоохранение на втором месте, также поддерживал план Сандерс, но с тех пор смягчил свою позицию.
- Изменение: это довольно близко, поскольку большинство демократов считают себя представителями перемен. Но опять же, Сандерс берет пирог как кандидат, наиболее заинтересованный в смене партии и политического курса страны.
Следующие шаги
То, что я сделал выше, лишь малая часть того, что можно сделать с протоколами дебатов. Ниже приведены три идеи по расширению этого анализа:
- Узнайте, как словоупотребление со временем изменилось для кандидатов.
- Измерьте, насколько каждый из кандидатов отличается друг от друга, используя вложения слов, такие как word2vec.
- Постройте модель классификации «кто это сказал», чтобы предсказать, какой кандидат сказал данную цитату.