Это основано на результатах выполнения некоторого алгоритма Doc2Vec NLP (обработка естественного языка), написанного командой Google. (Мелкие двухслойные нейронные сети). Имена на оси имеют формат ‹year› _ ‹president› _ ‹party› _ ‹cluster›. Теперь мы использовали другой метод для кластеризации результатов, к которому мы еще вернемся. Во-первых, давайте углубимся в сходство. Вот наиболее похожие выступления:

[('1993_Clinton_D_1', 0.9777867794036865),
 ('1977_Carter_D_5', 0.9765924215316772),
 ('1969_Nixon_R_5', 0.975844144821167),
 ('1989_Bush_R_5', 0.974454939365387),
 ('2001_Bush_R_1', 0.9733594655990601),
 ('1961_Kennedy_D_5', 0.973156213760376),
 ('1913_Wilson_D_3', 0.9689352512359619),
 ('1981_Reagan_R_5', 0.9668718576431274),
 ('1945_Roosevelt_D_4', 0.9627108573913574),
 ('1953_Eisenhower_R_5', 0.9612894654273987)]

Если вы сравните выступления с речами одной партии, то наиболее часто встречающимися речами будут Никсон, 2 Буша и Рейган. Doc2Vec / Word to Vec для сравнения использует сложный метод, называемый встраиванием слов. Вот сравнение всех выступлений со всеми другими выступлениями:

Сразу можно сделать несколько интересных наблюдений на очень высоком уровне. Например, темный нижний угол указывает на то, что в выступлениях последних лет говорится об аналогичных вещах. Проблема с word2vec, хотя он хорошо показывает общее сохранение семантических и синтаксических отношений, из-за природы векторов более упрощенные словесные ассоциации теряются или их трудно визуализировать.

LDA (более старый метод) более прозрачен в отношении группировки документов (кластеризация). Мы сгруппировали найденные выше документы и обнаружили некоторые интересные взаимосвязи.

Такие президенты, как Клинтон и Буш, использовали один и тот же язык, например: вызов, поколение, смелость, обещание и изменение. В то время как самые разные президенты, такие как ранние демократы и партия Виг (6 и 2 группы), говорят о таких вещах, как: союз, конгресс, иностранный, объединенный, партия. Возможно, на секунду наивно, можно сказать, что президенты больше говорят о: А) изменении или Б) сохранении права голоса. Точно так же кластеры более чем не следуют временам, а не президенту. Будет справедливо сказать, что президенты обычно говорят об одном и том же в течение одного и того же периода времени.

Сложив вместе все три показателя (Партия, Векторы документов и Кластеры), мы обнаруживаем, что речь Трампа больше всего похожа на Рейгана, подтверждая заявления о том, что он наиболее похож (см. 4 американских президента с чертами характера Трампа). »). Тем не менее, инаугурационная речь Полка сильно отличалась от речи Трампа. Небольшое примечание: поскольку Уильям Генри Харрисон умер, Гарфилд и Кеннеди убиты, а Никсон объявлен импичментом, у нас нет официальных инаугурационных речей от Тайлера, Артура, Джонсона или Форда соответственно.

Спасибо и еще раз прочтите:

Аналогичный анализ с разными результатами: