Анализ данных демократических дебатов

Кто говорит и что говорят?

Поскольку сезон предварительных выборов Демократической партии накаляется, и количество дебатов растет, может быть трудно следить за тем, что говорят кандидаты. Однако благодаря стенограммам онлайн-дебатов довольно легко найти каждое сказанное слово.

Вместо того, чтобы выполнять утомительное чтение этих стенограмм, давайте обработаем и проанализируем текстовые данные, чтобы выяснить, что же произошло на данный момент.

Сбор и обработка данных

Ниже приведены 5 шагов, которые я предпринял для получения и обработки данных для анализа. Я бы посоветовал вам пропустить этот раздел, если вас не интересуют технические детали:

  1. Скопировал текст для каждой дискуссии с веб-сайта Rev.com и сохранил данные в строке Python.
  2. Разделите каждую строку дебатов на пустые места и создайте список ораторов и список связанных с ними цитат.
  3. Заархивировал списки выступающих и цитат вместе и преобразовал их в фрейм данных pandas, где каждая строка представляет собой одну непрерывную строку кандидата.
  4. Объединили DataFrames дебатов вместе, добавив идентификатор для каждой дискуссии.
  5. Очищенные и стандартизированные имена кандидатов.

Анализ

Кто говорил?

Давайте сначала посмотрим на уровень участия каждого кандидата в дебатах. Чтобы измерить участие, мы рассчитаем% от общего количества слов, произнесенных каждым кандидатом. Мы включим только участников, которые участвовали в большинстве дебатов, и исключим первые два обсуждения, потому что оба они проходили в течение двух ночей.

Первое, что бросается в глаза, - это сам объем дебатов. Из почти 4000 награжденных всего 65 делегатов кандидаты уже 9 раз выходили на сцену. Также стоит отметить, что темпы обсуждения увеличились с одного обсуждения в месяц в конце 2019 года до одного обсуждения каждые две недели в 2020 году.

По мере того, как частота дебатов участилась, количество выступающих сузилось. В дебатах № 3 разница между кандидатом, выступающим с наибольшим количеством голосов (Байден), и нижним кандидатом (Сандерс) составила 12%. К девятым дебатам это было всего 3% - по сути, пять исходов.

Вероятно, это результат двух вещей. Во-первых, количество участников сузилось, и модераторам стало проще обеспечить кандидатам равное время выступления. Во-вторых, кандидаты стали более активными, поскольку ставки в последние недели выросли.

Еще одна интересная тенденция заключается в том, что для ряда кандидатов процент произнесенных слов коррелирует с основной успеваемостью.

Самым ярким примером этого является Элизабет Уоррен, чье резкое снижение с 22% в октябре до менее 13% в феврале отразило ее падение процента произнесенных слов с 24% до 14%.

Хотя здесь сложно определить какую-либо причинно-следственную связь, у этой корреляции может быть несколько причин. Возможно, модераторы корректируют свое поведение, задавая вопросы, в зависимости от того, кто лидирует в опросах. Или, может быть, отсутствие агрессивности со стороны кандидата отпугивает потенциальных избирателей. Наконец, может случиться так, что кандидаты склонны бросать вызов и провоцировать конкурентов, которых они считают своей самой большой угрозой.

Независимо от причины, вполне вероятно, что команда Уоррена уловила эту тенденцию раньше, чем в Неваде, где она занимала второе место среди всех кандидатов.

С другой стороны, Берни Сандерс увидел экспоненциальный рост среднего показателя опросов по стране с сентября по февраль, поскольку его участие в дебатах неуклонно росло:

Что они говорили?

Теперь, когда мы посмотрели, кто говорил, давайте почувствуем, о чем они говорили.

Сначала мы рассмотрим облако слов, которое показывает нам самые популярные слова, используемые в дебатах между кандидатами. Я исключил стоп-слова - часто используемые слова, не несущие особой семантической ценности - и применил метод, называемый лемматизацией, чтобы свести слова к их основному значению, независимо от их части речи.

Здесь нет больших сюрпризов - кандидаты пытаются обратиться к людям и объяснить, что они думают и что они собираемся сделать как президент, чтобы эта страна лучше.

Возможно, более глубокий анализ мог бы заключаться в том, чтобы посмотреть, как использование слов варьируется в зависимости от кандидата. Ниже я создал тепловую карту некоторых из наиболее часто встречающихся слов и того, как часто каждый кандидат их использовал. Чем темнее цвет, тем чаще кандидат использовал это слово.

Давайте пробежимся по 10 наиболее интересным словам и выводам:

  1. Люди: Сандерс чаще всего использует это слово. Это имеет смысл, учитывая тот факт, что его считают популистским кандидатом, стремящимся начать политическую революцию.
  2. Президент: Буттигиг чаще всего использует слово «президент» - возможно, как стратегию, которую следует рассматривать как наиболее «президентскую».
  3. Подумайте: Клобучар побеждает в этом с большим успехом. Она часто предваряет свое мнение фразой «Я думаю». Думаю, это скорее стилистическая вещь, чем неуверенность.
  4. Потребность: Уоррен позиционирует себя как способный решать проблемы, знающий, что нужно стране и ее народу. Возможно, именно поэтому она больше всего использует слова «семья» и «работа».
  5. Трамп: Уоррен и Байден реже упоминают имя президента. Интересно, является ли это намеренным шагом, учитывая, что Трампу, кажется, выгодно упоминание имени, как хорошего, так и плохого.
  6. Готово. Байден и Клобучар много говорят о том, что они сделали. Это имеет смысл, поскольку большая часть их привлекательности - это опыт. Байден был вице-президентом в течение 8 лет и сенатором с 1972 по 2008 год. Клобучар три срока занимал пост сенатора в Миннесоте и является одним из самых активных в сенате. Это серьезное отличие от кандидатов с менее традиционным опытом, таких как Буттигиг или Штайер.
  7. Факт. Байден очень часто употребляет фразу-заполнитель «фактически» - более чем в два раза чаще, чем употребляющий это слово на втором месте.
  8. Климат. .
  9. Здравоохранение: Сандерс возглавляет эту категорию. Он является кандидатом с самым уникальным планом здравоохранения - медицинской помощью для всех, - и ему пришлось потратить больше всего времени на защиту его стоимости и жизнеспособности. Уоррен, который использует слово здравоохранение на втором месте, также поддерживал план Сандерс, но с тех пор смягчил свою позицию.
  10. Изменение: это довольно близко, поскольку большинство демократов считают себя представителями перемен. Но опять же, Сандерс берет пирог как кандидат, наиболее заинтересованный в смене партии и политического курса страны.

Следующие шаги

То, что я сделал выше, лишь малая часть того, что можно сделать с протоколами дебатов. Ниже приведены три идеи по расширению этого анализа:

  1. Узнайте, как словоупотребление со временем изменилось для кандидатов.
  2. Измерьте, насколько каждый из кандидатов отличается друг от друга, используя вложения слов, такие как word2vec.
  3. Постройте модель классификации «кто это сказал», чтобы предсказать, какой кандидат сказал данную цитату.