Это основано на результатах выполнения некоторого алгоритма Doc2Vec NLP (обработка естественного языка), написанного командой Google. (Мелкие двухслойные нейронные сети). Имена на оси имеют формат ‹year› _ ‹president› _ ‹party› _ ‹cluster›. Теперь мы использовали другой метод для кластеризации результатов, к которому мы еще вернемся. Во-первых, давайте углубимся в сходство. Вот наиболее похожие выступления:
[('1993_Clinton_D_1', 0.9777867794036865), ('1977_Carter_D_5', 0.9765924215316772), ('1969_Nixon_R_5', 0.975844144821167), ('1989_Bush_R_5', 0.974454939365387), ('2001_Bush_R_1', 0.9733594655990601), ('1961_Kennedy_D_5', 0.973156213760376), ('1913_Wilson_D_3', 0.9689352512359619), ('1981_Reagan_R_5', 0.9668718576431274), ('1945_Roosevelt_D_4', 0.9627108573913574), ('1953_Eisenhower_R_5', 0.9612894654273987)]
Если вы сравните выступления с речами одной партии, то наиболее часто встречающимися речами будут Никсон, 2 Буша и Рейган. Doc2Vec / Word to Vec для сравнения использует сложный метод, называемый встраиванием слов. Вот сравнение всех выступлений со всеми другими выступлениями:
Сразу можно сделать несколько интересных наблюдений на очень высоком уровне. Например, темный нижний угол указывает на то, что в выступлениях последних лет говорится об аналогичных вещах. Проблема с word2vec, хотя он хорошо показывает общее сохранение семантических и синтаксических отношений, из-за природы векторов более упрощенные словесные ассоциации теряются или их трудно визуализировать.
LDA (более старый метод) более прозрачен в отношении группировки документов (кластеризация). Мы сгруппировали найденные выше документы и обнаружили некоторые интересные взаимосвязи.
Такие президенты, как Клинтон и Буш, использовали один и тот же язык, например: вызов, поколение, смелость, обещание и изменение. В то время как самые разные президенты, такие как ранние демократы и партия Виг (6 и 2 группы), говорят о таких вещах, как: союз, конгресс, иностранный, объединенный, партия. Возможно, на секунду наивно, можно сказать, что президенты больше говорят о: А) изменении или Б) сохранении права голоса. Точно так же кластеры более чем не следуют временам, а не президенту. Будет справедливо сказать, что президенты обычно говорят об одном и том же в течение одного и того же периода времени.
Сложив вместе все три показателя (Партия, Векторы документов и Кластеры), мы обнаруживаем, что речь Трампа больше всего похожа на Рейгана, подтверждая заявления о том, что он наиболее похож (см. 4 американских президента с чертами характера Трампа). »). Тем не менее, инаугурационная речь Полка сильно отличалась от речи Трампа. Небольшое примечание: поскольку Уильям Генри Харрисон умер, Гарфилд и Кеннеди убиты, а Никсон объявлен импичментом, у нас нет официальных инаугурационных речей от Тайлера, Артура, Джонсона или Форда соответственно.
Спасибо и еще раз прочтите:
- Исходный код для этого анализа как Jupyter Notebook
- Данные для этого упражнения, организованные Data Dot World
- Используемые инструменты: Python, Jupyter, Word2vec, sklearn, pandas, matplotlib
- Справка от http://brandonrose.org/clustering, https://medium.com/@mishra.thedeepak/doc2vec-in-a-simple-way-fa80bfe81104 мишра Изучение Инструментарий естественного языка (NLTK) Абхинава Рай https://medium.com/@theflyingmantis/exploring-natural-language-toolkit-nltk-e3009de61576
Аналогичный анализ с разными результатами:
- Еще немного НЛП о том, что говорит Трамп
- Что будет в инаугурационной речи? Лексический анализ через эмпат от @unignorant https://hackernoon.com/whats-in-an-inauguration-speech-a-lexical-analysis-via-empath-bf9a5eb90b76
- Смерть и возрождение: чтение между строк инаугурационной речи Трампа от @ascotthines https://medium.com/@ascotthines/death-and-rebirth-reading-between-the-lines-of-trumps-inauguration -speech-329fdd4ef632