Анализ адресов президента страны в Союзе с помощью инструментов анализа настроений и Python

В разделе 3 статьи II Конституции президенту Соединенных Штатов предписывается «предоставлять Конгрессу информацию о состоянии Союза и рекомендовать его рассмотрение таких мер, которые он сочтет необходимыми и целесообразными».

Учитывая новости, связанные с обращением Трампа о положении дел в 2019 году, было бы интересно взглянуть на эти обращения с течением времени и посмотреть, сможем ли мы отметить какие-либо интересные тенденции и изменения со времени первого выступления Джорджа Вашингтона. В этой статье мы воспользуемся подходом на основе данных в Python и будем использовать такие инструменты, как анализ настроений, чтобы лучше понять развитие этих выступлений с течением времени.

В серии блокнотов Python я изучил значения тональности различных выступлений, выполнил моделирование темы, создал WordCloud и наконец, построил элементарную меру того, сколько говорится, глядя на значения энтропии каждой речи.

Анализ настроений - популярный инструмент в обработке естественного языка, который помогает лучше понять и проанализировать текст, понимая высказываемые им мнения. Поскольку здесь мы рассматриваем несколько различных методов, не будем углубляться. Сначала мы рассмотрим простое представление настроения каждого выступления («положительное» или «отрицательное»), обозначенное одним числом, а затем посмотрим, может ли тематическое моделирование помочь нам получить какие-либо дополнительные идеи.

Прежде чем приступить к делу, давайте посмотрим, чего можно ожидать от адресов, которые мы собираемся анализировать. Когда в 1790 году Вашингтон выступил с первым Посланием к Государству Союза, пристальное внимание к нему как к первому POTUS заставило его вести осторожный и почтительный тон, давая рекомендации, а не призывы к действию, которые мы могли бы услышать от Джорджа Буша после 9/11. В результате мы можем ожидать, что эмоциональная ценность обращений Вашингтона будет относительно «нейтральной» (без присвоения им числового значения).

Достаточно предположений. Посмотрим на наши результаты. Я изобразил значения настроений в первой записной книжке ниже:

Вы заметите пик в правой части графика, который торчит, как больной большой палец, - это послание президента Джимми Картера о положении в стране в 1981 году. Если бы мы проигнорировали этот фрагмент данных, значения тональности остальных адресов оказались бы гораздо более тесно связанными. Тем не менее, мы обратимся к этому конкретному обращению, когда начнем анализировать изменения настроений в отношении отдельных президентств.

Давайте продвинемся немного дальше - поскольку мы знаем эмоциональную ценность речей каждого отдельного президента, мы можем проследить изменение настроений от их первого до последнего обращения о положении дел в стране. Возможно, это будет иметь некоторую связь с успехом их президентства.

Используя числа, мы получаем следующие наблюдения:

  • Наибольшее увеличение у Картера с 106,65200000000003. Это несколько неожиданно, и мы рассмотрим это ниже.
  • Следующий по величине отстает совсем немного: McKinley с 33.01699999999996. В то время как начало его президентства было связано с кубинским кризисом и войной с Испанией, Маккинли сумел достичь мира с Испанией и некоторой территориальной выгоды. Конец его президентства был оптимистичным до его убийства, поэтому ценность, похоже, соответствует историческим событиям.
  • Наибольшее снижение у Трумэна с -35,072000000000045. Трумэн вступил в должность после победы союзников во Второй мировой войне и возглавил первый срок, в котором участвовали такие доктрины, как план Маршалла и неопределенность в отношении Китая. Корейская война во время второго президентского срока Трумэна стала для США разочаровывающим тупиком, и к 1952 году Трумэн достиг самого низкого рейтинга одобрения активного президента США за все время. Опять же, данные, похоже, совпадают с историей.
  • Рузвельт следует за Трумэном с -31,856000000000016. Мы можем вспомнить противоречивое начало, когда Рузвельт одержал убедительную победу над Трумэном, но занял пост президента в разгар Великой депрессии и отбыл рекордные четыре срока. У него было плодотворное начало, он возглавил основные законодательные акты и провозгласил «Новый курс». Интересно, что обращение 1934 года не «представило [американцам] картину полного оптимизма в отношении мировых дел». В то время как Рузвельт рисовал более обнадеживающую и оптимистичную картину окончания Второй мировой войны как года великих достижений и окончания нацистско-фашистского правления в Европе, его длинная речь коснулась «значительных потерь», «отчаянных попыток» со стороны врага, и «злые и беспочвенные слухи», которые составили «пропаганду разногласий» со стороны Германии. Это может быть самый интересный результат, который мы рассматриваем, потому что, хотя речь 1945 года была определенно положительной и обнадеживающей во многих отношениях, наша модель, вероятно, унаследовала множество сомнительных и отрицательных слов, используемых для описания врага во время Второй мировой войны.
  • У Трампа довольно много отрицательных результатов: ко второму году его срока он изменился на -8,769999999999989. Еще слишком рано рисовать полную траекторию и все объяснять, но продолжающаяся тенденция обвинений и доказательств в отношении расследования по России предполагает, что эта тенденция негативных настроений может сохраниться и в Послании о положении Союза 2019 года, если это действительно произойдет.

Начиная свое президентство в течение года стагфляции, было бы логично предположить, что если Картеру удастся обуздать это явление, то настроения, выраженные в его обращениях, резко возрастут. Интересно, что последние пятнадцать месяцев Картера на посту президента были омрачены кризисами, включая кризис с захватом заложников в Иране и советское вторжение в Афганистан, в то время как самого Картера обычно оценивают как президента ниже среднего.

На столь же интересном моменте, несмотря на согласие с тем, что Полк был в целом успешным (хотя президентом его часто недооценивали), изменение настроений в отношении его выступлений составило примерно 7. В то же время было бы несложно представить, что президент такие, как Полк, произносили речи взвешенным тоном. С другой стороны, наша модель настроений могла бы улавливать положительные и обнадеживающие утверждения из речи Картера 1981 года, например, в следующем абзаце:

«Однако я твердо верю, что в результате прогресса, достигнутого во многих внутренних и международных областях за последние четыре года, наша нация стала сильнее, богаче, сострадательнее и свободнее, чем она была четыре года назад. Я горжусь этим фактом. И я считаю, что Конгресс также должен гордиться, поскольку многое из того, что было достигнуто за последние четыре года, было достигнуто благодаря упорной работе, проницательности и сотрудничеству Конгресса. Я аплодирую Конгрессу за его усилия и достижения ».

Сама по себе формулировка не является аномальной, но общая длина выступления Картера в сочетании с явно обнадеживающими и позитивными формулировками, несомненно, способствовала бы оценке, которую наша модель дала речи. Хотя Картер не избегал упоминания трудностей, цель его выступления заключалась в том, чтобы нарисовать портрет четырехлетнего прогресса. Было бы естественно, что Картер хотел подытожить то, что он считал определяющими достижениями своей администрации, и установить позитивную ноту на будущее. Это привело к более пространной и обнадеживающей речи, чем обычно.

Во втором блокноте я выполнил тематическое моделирование, тип статистического моделирования, который помогает нам обнаруживать абстрактные темы, которые появляются в документах и ​​текстах. Я использовал две модели, скрытое распределение Дирихле (LDA) и скрытое семантическое индексирование (LSI) для подмножества выступлений, удерживая последние два адреса, данные Трампом.

Для тех, кто ищет технические объяснения двух моделей, вы можете найти хорошее объяснение LDA и LSI в статье Эдварда Ма. Здесь я в первую очередь сосредоточусь на том, что они могут рассказать нам о выступлениях, которые нам интересны. Модель LDA дала нам следующие тематические кластеры (результат модели LSI можно найти в блокноте 2):

Если мы пропустим слова, которые довольно часто встречаются во всех темах («единый», «штаты», «конгресс», «год»), то эти темы могут дать нам некоторое представление о типе языка, используемого во время выступления. К сожалению, стоит отметить, что модель не дает нам многого в плане тем, которые включают в себя такие специфические для политики термины, как «сельское хозяйство» или «отношения». С другой стороны, такие слова, как «должен», «великий» и «люди» могут рассказать нам кое-что больше о тоне выступлений и о том, как они исторически использовались как в качестве обновлений, так и в качестве призывов к действию, опираясь на американцев. «сильное чувство гордости за свою страну.

В следующей части нашего исследования мы попытаемся построить (очень) элементарную меру того, «сколько говорит президент», вычисляя энтропию каждого адреса индивидуально. В теории информации энтропия определяется как средняя скорость, с которой информация производится стохастическим (случайным) источником данных. В этом контексте энтропия выражает наши ожидания в отношении информационного содержания речи или степени неопределенности, которую она устраняет.

Для наших целей мы можем рассматривать меру энтропии как краткость текста. Чем выше энтропия речи, тем она менее краткая и, следовательно, тем более «говорящая». Мы воспользуемся этим мышлением в качестве отправной точки и продолжим. Ниже приведен график энтропии каждой речи, начиная с речи Вашингтона и заканчивая речью Трампа:

Не вдаваясь слишком глубоко, стоит отметить, что в среднем значения энтропии, кажется, увеличиваются с течением времени с изрядным количеством падений. Тем не менее, значения уменьшаются настолько значительно, что мы, вероятно, ошибемся, если скажем, что энтропия значительно увеличилась от более ранних к более поздним выступлениям. Одной из характеристик речей с более высокой энтропией была большая длина, но некоторые дальнейшие исследования в этой записной книжке показывают, что это не объясняет всей картины. Если вы заинтересованы в дальнейшем анализе и, возможно, сами продвинетесь в этом направлении, ознакомьтесь с записной книжкой под названием «Энтропия».

На последнем этапе исследования я создал несколько облаков Word, чтобы визуализировать следующее:

  • Сборник всех адресов SOTU
  • Сравните 10 самых ранних адресов с 10 последними
  • Сравните адреса Обамы и два адреса Трампа.

Если мы рассмотрим WordCloud всех адресов, мы не должны слишком удивляться тому, что наиболее известные слова являются наиболее общими и широко применимыми к американскому народу: «американский», «америка», «нация», «новый» и « люди ». Также появляются слова, которые мы видели в нашем тематическом моделировании, такие как «должен» и «будет».

В то же время, хотя им уделяется меньше внимания, появляются темы, которые вызвали множество дискуссий в последние годы и которые также имеют исторические корни - в их число входят «наркотики», «иммиграция» и «терроризм».

Далее мы рассмотрим десять самых старых и десять самых новых адресов.

Сравнивая самые старые адреса с самыми новыми, можно заметить некоторые заметные изменения. В WordCloud для новейших выступлений слово «соединенные штаты» опущено почти полностью, в то время как слова «должен», «великий» и «страна» появляются гораздо шире, чем раньше. Слова «интерес» и «государство» также исчезают, указывая на некоторые интересные риторические сдвиги в выступлениях президентов от раннего до современного.

Если мы вспомним ранее о ненадежном характере президентства в первые несколько лет его существования, логично предположить, что призывы к действию были бы гораздо более нормой в сегодняшнем мире, чем когда-либо в то время - кроме того, современные дискурсы вызвали изрядное количество раздумий. риторики, основанной на чувстве гордости американцев, объясняя слово «великий». Исчезновение таких слов, как «интерес» и «государство», может означать переход от более теоретического дискурса о функции национального государства, которую отцы-основатели так глубоко считали.

Наконец, давайте сравним WordCloud с адресами государства Союза, данными двумя нашими последними президентами: Бараком Обамой и Дональдом Трампом.

Следует отметить более широкое присутствие в облаке Обамы слов «мы», «создание», «новый», «помощь», «работа» и «каждый». В облаке Трампа используются слова «америка» и «нация», а также «люди» и «страна» с большим акцентом. Мы также можем легко определить слово «наркотик», хотя мы не можем найти его в облаке Обамы. Хотя некоторые из самых крупных слов носят общий характер, различия между двумя облаками и риторические предположения, которые они подразумевают, указывают на различия в интересах и политике Обамы и Трампа.

Стремление Обамы быть сторонником позитивных изменений и политиком, который часто использовал речи (как он это делал в своей кампании), чтобы вызвать у своих слушателей чувство общности, объясняет присутствие таких слов, как «мы» и «каждый», в то время как его внутреннее здравоохранение политики и сосредоточиться на том, что могло бы объяснить такие слова, как «помощь». Слова, которые мы отметили в облаках Трампа, отражают значительные дозы национализма, присутствующие в его выступлениях. Доминирующий размер слова «воля» в обоих облаках предполагает обещания обоих президентов.

Подводя итоги, мы проанализировали тексты обращений к положению Союза, данных президентами после Джорджа Вашингтона, сначала используя базовую меру настроений, чтобы посмотреть на позитивность и негативность в речах и сдвиги в этих ценностях для каждого президента. Затем мы рассмотрели тематическое моделирование, чтобы увидеть, можем ли мы сделать выводы по интересующим темам в State of the Union Addresses. Затем мы рассмотрели энтропию как меру сжимаемости и элементарную меру «содержания» речи. Наконец, мы использовали WordCloud, чтобы посмотреть на темы, относящиеся ко всем президентам, как они выражены в этих обращениях, а также на различия между несколькими интересными группами и отдельными людьми.

Такие инструменты, как НЛП, могут помочь нам проанализировать интересные тенденции и разработать новые идеи об исторических документах, от выступлений до книг. Обращения президента о положении в Союзе важны в том смысле, что они могут рассказать нам о состоянии текущих событий на протяжении всей американской истории и нарисовать портреты оптимизма и пессимизма с течением времени. Хотя чисто технологический анализ ситуации полезен, он может привести нас к потенциально ошибочным выводам, как это было в случае с Рузвельтом, если мы не потратим время на изучение документов. По мере продвижения вперед мы должны продолжать использовать такие инструменты, как анализ настроений, чтобы получить мощную информацию, которую они могут предоставить, но помните, что при анализе текста и выступлений, в частности, необходимо принимать во внимание многочисленные контекстные и риторические факторы, которые модели часто могут » Я понимаю так же хорошо, как люди.

Источники:

[1] Г. Вашингтон, Первое ежегодное обращение к Конгрессу (1790 г.).

[2] Дж. Картер, Послание о положении в Союзе (1981).

[3] Ф. Рузвельт, Послание о положении в Союзе (1934 г.).

[4] Ф. Рузвельт, Послание о положении страны (1945).

[5] Уильям МакКинли, Википедия.

[6] Гарри С. Трумэн, Википедия.

[7] Президентство Франклина Д. Рузвельта, Википедия.

[8] Э. Ма, 2 скрытых метода уменьшения размерности и тематического моделирования (2018), На пути к науке о данных.