Следите за тем, что вы говорите

Скоро собираетесь на званый ужин? Вы не будете одиноки. Америка готова пить, обедать и веселиться, и, хотя средства массовой информации страны много писали об этикете и декоре (нажмите здесь, здесь или здесь), это было совершенно бесполезно с разговорами о том, что можно и чего нельзя делать. . Эта статья в основном о том, чего нельзя делать. Третьим направлением вежливой беседы, конечно же, являются политика и религия, и хотя избегать их — достаточно простой совет, кажущиеся безопасными темы могут подразумевать больше о вашей политической принадлежности, чем вы ожидаете. Как вы вскоре увидите, очень большое количество тем заряжено предвзятостью, и в той мере, в какой они обсуждаются за ужином, они могут рекламировать вашу политическую принадлежность и оставлять кислый привкус во рту ваших собеседников, независимо от качества. еды за вашим столом.

В последующем анализе используются различные инструменты машинного обучения на очень большом наборе данных для определения политических группировок, классификации различных идеологий как левых, правых и умеренных, а также прогнозирования результатов голосования. Как следует из названия этой статьи, спросить кого-то об их мнении о здравоохранении может быть так же полезно, как спросить вашего собеседника, как он проголосовал на последних выборах.

Они просто не в вас, господин президент

За 11 месяцев, прошедших с тех пор, как Америка выбрала для своего 46-го президента фамильярность добродушного бывшего вице-президента, страна успешно внедрила вакцины для подавляющего большинства людей, которые в них нуждаются, испытала быстрый рост рабочих мест и увидела, как ее фондовые индексы поднялись до нового уровня. записи. Авторское законодательное достижение президента настолько понравилось всем, что даже республиканцы, которые голосовали против него, иногда приписывали себе это. Законодательные приоритеты левых демократов, которые рискуют разжечь культурные войны в Америке, закипели, но не выплеснулись наружу. И хотя республиканцы и демократы могут расходиться во мнениях относительно контуров законопроекта об инфраструктуре, двухпартийная поддержка того, чтобы что-то сделать, а может быть, даже что угодно, сильно.

И все же, хотя рейтинги одобрения Байдена с момента инаугурации оставались стабильными, его рейтинги неодобрения росли. Враждебность враждующих племен Америки, которую никогда долго и искренне не подавляли, вернулась, как старое спортивное соперничество, а социальные сети напоминают каждой стороне об исторических обидах. Действительно, даже союзники-демократы начали более публично заявлять о своих разногласиях, в частности, по вопросу об условиях предстоящих законопроектов об инфраструктуре. Если вы похожи на нас, это будет ожидаемым и неизбежным. Почему мы так себя ведем и насколько избиратели далеки от идеологического центра? В какой степени идеология определяет исход голосования и какие вопросы имеют значение? Насколько избиратели одной и той же партии видят мир одинаково или, выражаясь разными словами, насколько велики палатки двух больших партий¹?

Спросить у Америки, что она думает

Чтобы ответить на эти вопросы, мы обратились к Американскому национальному исследованию выборов (ANES) 2020 Time Series Study². Каждый избирательный цикл ANES, который является результатом сотрудничества между Стэнфордским университетом и Мичиганским университетом, задает большое количество предвыборных и послевыборных вопросов через Интернет, видео и по телефону. Из-за пандемии COVID-19 в 2020 году личные интервью не проводились. Вместо этого ANES провела около 8000 самостоятельных онлайн-опросов, онлайн-видеоинтервью и телефонных интервью.

Для краткости мы не будем обсуждать дизайн опроса. Если вам интересно, подробности можно найти здесь. Тем не менее, приведенная ниже диаграмма представляет собой быстрый снимок респондентов опроса, которые в конечном итоге голосовали на каждых выборах с 1968 года. Количество участников, которые идентифицируют себя как демократы, независимые и республиканцы, варьируется в зависимости от года, но единственное существенное изменение в предпочтениях избирателей между 2016 и 2020 годами происходит в независимых (обратите внимание, что респонденты не обязательно идентичны в течение избирательных циклов). Хотя вопрос об изменении предпочтений интересен и заслуживает изучения, в этой статье основное внимание уделяется данным опроса 2020 года и, в частности, 121 вопросу по таким темам, как иммиграция, однополые браки, Закон о доступном медицинском обслуживании и COVID-19. Эти вопросы были заданы после выборов. В частности, мы не включаем какие-либо вопросы, связанные с утверждением работы, утверждением конкретной государственной политики или ответных мер (например, ответных мер правительства на COVID-19) или предпочтениями кандидатов.

Америка кластерами

В первую очередь мы определяем идеологические коалиции, составляющие Республиканскую и Демократическую партии. Для этого мы используем метод, называемый кластеризацией K-средних. В этом наборе из 121 вопроса, ни один из которых не включал демографическую информацию, партийную принадлежность или предпочтения кандидата, алгоритм К-средних группирует респондентов в кластеры разного размера. Например, он может разделить демократов на две группы или на двадцать. Чтобы определить наилучшую схему кластеризации, мы используем серию из 30 тестов для принятия решения.

Как для сегментации избирателей Байдена, так и для сегментации избирателей Трампа наши тесты показывают, что идеальное количество кластеров равно двум. С небольшим искусством мы можем описать эти группировки как «умеренные» и «экстремисты». Умеренные составляют 55% избирателей Трампа и 46% избирателей Байдена. Избиратель-экстремист Байдена, которого лучше назвать либералом, скорее всего, с энтузиазмом поддержит Закон о доступном медицинском обслуживании, в то время как избиратель-экстремист Трампа, также известный как консерватор, скорее всего, поддержит его отмену. Используя эту категоризацию, мы оцениваем каждый вопрос по спектру от консервативного до либерального. Большинство вопросов, таких как вопрос, касающийся Закона о доступном медицинском обслуживании, имеют резкие партийные различия, в то время как другие, такие как вопросы о международной торговле, не имеют.

Авторы этого отчета не находят интуитивным вывод модели о том, что всего четыре кластера, поровну разделенных между республиканцами и демократами, являются оптимальным решением. В конце концов, две основные политические партии — это большие палатки, и мы ожидали, что будет большое количество отдельных подгрупп. Авторы предвыборного освещения FiveThirtyEight выбрали от пяти до шести крыльев или переулков для каждой партии (см. сноску 1). Когда мы оцениваем каждого респондента по партизанскому отображению 121 вопроса, присваивая каждому человеку по одному баллу на основе партийности его или ее ответов, кластеры визуально поразительны. Каждая точка ниже представляет одного человека, сгруппированного по одному из четырех кластеров (ось Y) и сопоставленного с его идеологической оценкой (ось X). Между общими идеологическими установками консерватора Трампа и либерала Байдена нет совпадения. Это не относится к умеренным. Посмотрите, например, на случай с умеренными Байденом, у которых рейтинг идеологии больше нуля. Эти люди придерживаются в целом консервативных взглядов на мир, но голосовали за Байдена. Либерально настроенных умеренных Трампов меньше, но они есть.

Идеология в целом соответствует чувствам по отношению к кандидатам. На следующей диаграмме показана взаимосвязь между идеологией респондентов и их чувствами к Дональду Трампу. Идеология и теплота по отношению к президенту Трампу не являются идеально линейными — некоторые люди со значительно консервативными мировоззрениями относятся к бывшему президенту ледяно-холодно, в то время как другие, склонные к либерализму, являются поклонниками MAGA. Тем не менее, в целом связь очевидна. Обратите внимание, что партийная принадлежность примерно соответствует как идеологии, так и чувствам по отношению к Дональду Трампу.

Некоторые четкие закономерности проявляются, когда мы смотрим на демографические данные респондентов нашего опроса по кластерам.

Умеренные Байдены с гораздо меньшей вероятностью будут белыми и с гораздо большей вероятностью будут чернокожими, латиноамериканцами, азиатами или коренными американцами. Расовые различия между умеренными Трампом и консерваторами менее заметны.

Либералы Байдена, как правило, более высокообразованны, чем умеренные Байдены (или избиратели Трампа). Опять же, различия между консерваторами Трампа и умеренными невелики.

Более высокий процент Трампа, чем избиратели Байдена, считают себя религиозными, в частности протестантами. Католики составляют более высокий процент умеренных, чем экстремистов как в лагерях Байдена, так и в лагерях Трампа. На самом деле, религиозный профиль умеренных Байдена больше похож на профиль умеренных Трампа, чем на либералов Байдена. Либералы с большей вероятностью идентифицируют себя как атеисты или агностики, чем любая другая группа.

Среди избирателей Байдена гораздо больше женщин, чем мужчин, но ни женщины, ни мужчины не являются более либеральными. Избиратели Трампа другие. Мужчины гораздо более склонны быть консервативными, чем умеренными, а женщины наоборот. Если сложить все это воедино, то позиция Трампа (или, возможно, поле идеологических сражений сегодняшних политических дебатов, которые часто включают социальную справедливость и политические вопросы о гендере и расе), похоже, тянет как республиканцев, так и демократов еще дальше вправо. Другая возможность заключается в том, что мужчины просто склонны быть более консервативными, независимо от политических взглядов.

Некоторые факторы не различаются между сегментами. Например, наличие члена домохозяйства в профсоюзе, по-видимому, не играет никакой роли в определении общего политического мировоззрения.

Либералы Байдена с перекосом намного моложе умеренных. Это верно до тех пор, пока люди немного старше 40 лет. Хотя влияние возраста менее выражено для избирателей Трампа, консерваторы перекосят старше, чем умеренные, особенно старше 60 лет.

Использование идеологии для прогнозирования результатов голосования

Если вы знаете чьи-то взгляды на мир, можете ли вы предсказать его голос? Приведенные выше диаграммы предполагают, что ответ… что-то вроде. Это правда, что либералы и консерваторы живут в разных мирах и редко, если вообще когда-либо, голосуют против своей партии, но умеренные пересекаются. Давайте вернемся к рассмотренным ранее составным показателям идеологии. Если мы назначим простой тест, в котором любое число выше 0 соответствует вероятному избирателю Трампа, а любое число ниже нуля — голосованию за Байдена, мы можем предсказать, как люди голосуют, с точностью 92%.

И мы можем сделать немного лучше. Двумя широко используемыми инструментами в машинном обучении являются модели Random Forests и Extreme Gradient Boost (XGBoost). Мы потратим здесь несколько предложений на описание этих инструментов, но в Интернете есть большое количество удобных и более качественных вводных материалов. Особенно хорошая визуализация существует здесь.

Древовидные модели, которые являются основой как для случайных лесов, так и для XGBoost, стремятся описать некоторый результат (например, избиратель Байдена или избиратель Трампа?) с использованием данных (например, 121 вопрос о темах горячих кнопок). Одно дерево будет сначала задавать наиболее актуальный вопрос (например, «Взгляд на закон о доступном медицинском обслуживании»), а затем задавать дополнительные вопросы, ответвляющиеся от него (например, «Взгляд на позитивные действия»). Каждая ветвь включает новую информацию, пытаясь повысить точность моделей при прогнозировании конечного результата. Эта сеть вопросов в конечном итоге выглядит как дерево решений (или, возможно, новогодняя елка), сужающееся вверху и расширяющееся внизу по мере увеличения путей между узлами. Цель дерева — как можно лучше классифицировать результат без переобучения модели. Модели Random Forests и XGBoost значительно повышают точность моделирования с помощью набора статистических методов (пакетирование, уменьшение количества предикторов, доступных в каждом узле, и повторная подгонка простых деревьев к остаткам).

Так что же происходит, когда мы задаем 121 вопрос в наши модели Random Forest и XGBoost? Ответ заключается в том, что мы можем предсказать предпочтения избирателей с более высокой степенью точности. Следующие две таблицы называются матрицами путаницы. Они показывают результаты прогнозов наших моделей для «тестовых» данных, которые мы исключили из данных, которые мы использовали для обучения наших моделей. Общая точность моделей Random Forest и Boost составила около 94%.

Как можно добиться большего успеха, анализируя длинную серию вопросов, чем анализируя общие идеологические настроения избирателя? Ответ заключается в том, что некоторые вопросы лучше предсказывают предпочтения избирателей, чем другие.

На двух диаграммах ниже показано, как модель XGBoost оценивает вероятное поведение при голосовании двух отдельных респондентов. В обоих случаях ось Y показывает вероятность, которую наша модель приписывает голосованию за Трампа. На каскадной диаграмме ответы упорядочиваются от наиболее значимых к наименее значимым, и, хотя масштаб оси Y может быть неинтуитивным (в нем используется обратная логит-функция), размер столбцов является точным представлением относительной силы, которую каждый ответ оказывает на предположение модели о вероятности голосования за Трампа. Обратите внимание, что как для избирателя Трампа, так и для избирателя Байдена самым важным вопросом было его или ее отношение к Закону о доступном медицинском обслуживании. Также обратите внимание, что несколько вопросов содержат как простой вопрос «да/нет» (например, одобряете ли вы закон о доступном медицинском обслуживании?), так и вариант, который включает в себя силу ответа (например, одобрить большую часть, одобрить умеренную сумму, одобрить мало и др.). Мы включаем как в наши модели, так и в последующие диаграммы и таблицы, присваивая последним префикс «ВЗВЕШЕННЫЕ».

Как наша модель XGBoost оценила одного респондента Трампа (ось Y — это вероятность проголосовать за Трампа). Вопросы в начале (например, «Взгляд на Закон о доступном медицинском обслуживании») играют наибольшую роль в нашем прогнозе, в то время как вопросы в конце оказывают минимальное влияние (например, «Лучше или хуже США, чем в большинстве других стран»).

Как наша модель XG Boost оценила одного избирателя Байдена (ось Y — вероятность проголосовать за Трампа). Хотя многие из предпочтений этого человека остались прежними, некоторые — нет (например, возражает против обязательного выкупа штурмовых винтовок).

Следующая диаграмма резюмирует природу многих из этих вопросов: республиканцы с Марса, демократы с Венеры. Мы отображаем десять наиболее важных функций или вопросов, используя Объяснения аддитивных объяснений Шепли. Без подробного описания методологии каждая точка является избирателем, и то, насколько они падают вправо или влево от медианы, определяет степень, в которой модель относит их к вероятным избирателям Трампа или Байдена. Два наиболее важных вопроса — это варианты, в которых спрашивают мнение респондента о Законе о доступном медицинском обслуживании. Два вопроса, связанные с COVID-19, входят в первую десятку, в том числе один, связанный с лабораторным происхождением, тема, которая только недавно взорвалась с кровавой силой в основных СМИ, которые долгое время пытались подавить ее. Данные ANES указывают на то, что у этой бомбы был длинный фитиль. Третий по важности вопрос заключается в том, справедливо ли подсчитывались голоса. Значение этого вопроса значительно возросло, учитывая напряженные дебаты о честности выборов после выборов 2020 года. Когда мы исключаем этот вопрос из наших моделей и заменяем его аналогичным вопросом, который задавался перед выборами, модели ставят этот вопрос примерно на 30-е место среди наиболее важных из примерно 60, которые считаются полезными. Другими словами, это было далеко не лакмусовой бумажкой, которой позже стало. Когда мы исключаем оба вопроса из набора данных, точность наших моделей снижается лишь незначительно.

Название: Важность функции в XGBoost (сводный график SHAP)

Можем ли мы сделать еще лучше? Мы использовали несколько вариантов модели, в которые мы включили общую совокупную оценку идеологии, описанную выше. Мы также по-разному включали регистрацию партии и несколько вопросов, не связанных с идеологией, таких как раса, религия, образование, пол, возраст и членство ли кого-либо в домохозяйстве респондентов в профсоюзе. Общая идеологическая оценка всегда была самой важной переменной. Самоидентификация партии (а не регистрация) также была важна, обычно занимая второе или третье место после взглядов на Закон о доступном медицинском обслуживании или общую идеологию, когда это было возможно. Неидеологические факторы не имели большого значения. Благодаря дополнительной информации от этих переменных общая точность модели XGBoost увеличилась до 96%. Напротив, модель, использующая только идентификацию партии и шесть демографических факторов, упомянутых ранее, дает модель с точностью 84–85%. Идеология действительно имеет значение.

Вопросы, которые объединяют и разъединяют

Модели Random Forest и XGBoost сложны, и важность одной переменной зависит от другой. Еще один способ понять, как избиратели Байдена и Трампа по-разному смотрят на мир, — это взглянуть на вопросы, на которые консерваторы и либералы отвечают наиболее по-разному. Первый столбец в таблице ниже отсортирован по размеру разрыва между ответами на заданный вопрос либералов и консерваторов, а не умеренных. Цифры в таблице представляют собой разницу между стандартизированными баллами при нормальном распределении. Мы допустили некоторые вольности, удалив строки с очень похожей информацией (например, «Отдавать предпочтение трансгендерам, служащим в армии, с весом и без») и включив в каждую таблицу вопрос о Законе о доступном медицинском обслуживании. Для удобства черная линия — это произвольная граница, ниже которой вы найдете переменные, по которым консерваторы и либералы меньше всего расходятся во мнениях. Закон о доступном медицинском обслуживании, взгляды на изменение климата, расу, пол, оружие и иммиграцию — все это высоко ценится.

Особенно интересны для нас вопросы, по которым у умеренных и экстремистов больше всего разногласий. В следующей таблице показан разрыв между консерваторами Трампа и его умеренными сторонниками. Выбросы парниковых газов, например, здесь очень важны. То же самое относится и к налогам на богатых, минимальной заработной плате, большому правительству, контролю над оружием и содержанию под стражей детей иммигрантов.

Для умеренных и либералов Байдена вопросы, вызывающие наибольшие разногласия, связаны с расой, предпочтениями, иммиграцией и традиционными ценностями — все эти горячие точки традиционно рассматриваются как поводы для недовольства консерваторов. По этим вопросам умеренные Байдена явно прохладны. Однако это среднее значение. В умеренный кластер входит значительное число идеологически консервативных демократов. Мы предполагаем, что есть значительное число довольно консервативных демократов, которые могут быть восприимчивы к республиканским заявлениям по культурным вопросам, тенденция, которую мы наблюдаем в последнее десятилетие. Не очевидно, что все эти избиратели будут белыми.

Заключение

Президент Трамп за короткий промежуток времени в четыре года значительно изменил послание Республиканской партии, превратив ее из культурно-консервативной, выступающей за свободную торговлю и бизнес, в культурно-консервативную, нативистскую и протекционистскую. Многие республиканцы согласились с этим направлением движения, но значительная часть, в том числе, по существу, весь республиканский истеблишмент, вероятно, не согласилась и все же ради целесообразности согласилась с этим направлением. Это кажется убедительным свидетельством трайбализма. Если бы Трамп сделал Гренландию своей определяющей проблемой, циник внутри нас может представить, что республиканцы скандировали бы это на его митингах, а не трепетали бы перед его призывами построить стену.

Однако правилен ли циничный анализ? Трамп действительно дал новое определение своей партии, но большинство республиканцев и немалое количество демократов были настроены на его послание. Протекционизм довольно популярен, а нелегальная иммиграция — нет. Вопросы, центральные для культурного консерватизма, обсуждаемые, вызывающие разногласия и решающие, но до некоторой степени подавляемые гражданскими нравами, ворвались в национальный разговор таким образом, что большинство из нас никогда не могли себе представить.

Кажется, что люди голосуют за свою совесть таким образом, что это выходит за рамки политической лояльности. В конце концов, идеология также диктует голосование независимых. Даже самые ярые критики Трампа признают, что он излучает определенную харизму. Дональд Трамп, возможно, получил больше голосов, переведя свою партию в сторону идеологически выгодной политики, чем он сделал это, извлекая выгоду из своей славы бизнес-магната. И да, мы могли бы быть и на самом деле, вероятно, по крайней мере в чем-то ошибаемся. Следующим шагом в этом анализе будет отслеживание того, как идеология менялась в течение каждого избирательного цикла. Национальные разговоры действительно меняются, и для самых пристрастных людей причина, ради которой они маршируют, менее важна, чем сам акт марша.

Если политика — это война идей, демократы ставят себя в невыгодное положение, когда обсуждают вопросы недовольства, иммиграции и социальной справедливости. Это вопросы, поддерживаемые либералами, терпимые лишь некоторой частью умеренных демократов и часто презираемые теми, кто придерживается более консервативных взглядов. Много было сказано о достоинствах и недостатках обращения к базе, и здесь мы не можем добавить ничего интересного. Мы хотели бы просто отметить, что, на первый взгляд, цифры указывают на слабую поддержку, что вопреки здравому смыслу наиболее заметно среди меньшинств. Точно так же республиканцы находятся в самом уязвимом положении, когда они бунтуют против изменения климата, большого правительства и контроля над оружием. Однако, в отличие от демократов, у республиканцев есть то преимущество, что в этих вопросах им просто нужно замедлить прогресс, а не платить за противоречивые изменения прочным политическим капиталом. Конечно, вы, дорогой читатель, со своими особыми взглядами на общественный договор, будете иметь мнение о том, стоит ли платить такие расходы. Тем не менее, кажется достаточно очевидным, что большое количество американцев, в той или иной степени социально консервативных, экономически прогрессивных и восприимчивых к современным представлениям о таких темах, как изменение климата, существуют на краю межпартийного разделения Америки. Наша скромная надежда состоит в том, что мы немного прояснили контуры национальных идеологических различий.

¹ FiveThirtyEight написал множество статей на эту тему:

https://fivethirtyeight.com/features/the-5-key-constituencies-of-the-2020-democratic-primary/

https://fivethirtyeight.com/features/what-defines-the-sanders-coalition/

https://fivethirtyeight.com/features/why-kamala-and-beto-have-more-upside-than-joe-and-bernie/

https://fivethirtyeight.com/features/why-the-progressive-left-fits-so-uncomfortably-within-the-democcratic-party/

https://fivethirtyeight.com/features/the-six-wings-of-the-demcratic-party/

https://fivethirtyeight.com/features/the-five-wings-of-the-republican-party/

² Американские национальные исследования выборов. 2021. Предварительный выпуск исследования временных рядов ANES 2020: объединенные предвыборные и послевыборные данные [набор данных и документация]. Версия от 24 марта 2021 г. www.electionstudies.org

Эти материалы основаны на работе, поддержанной Национальным научным фондом (www.nsf.gov) в рамках гранта № SES-1835721 Мичиганского университета и гранта № SES-1835022 Стэнфордского университета. Любые мнения, выводы и выводы или рекомендации, выраженные в этих материалах, принадлежат автору (авторам) и не обязательно отражают точку зрения Национального научного фонда.