Насколько хороши опросы? Анализ набора данных Five-Thirty-Eight

Мы анализируем набор данных рейтинговых опросов с почтенного сайта политических прогнозов Five-Thirty-Eight.

Вступление

Это год выборов, и сцена голосования вокруг выборов (как генерального президента, так и палаты представителей / сената) накаляется. В ближайшие дни это будет становиться все более и более захватывающим, с твитами, контр-твитами, драками в социальных сетях и бесконечной критикой на телевидении.

Мы знаем, что не все опросы одинакового качества. Итак, как во всем этом разобраться? Как определить надежных социологов с помощью данных и аналитики?

В мире политического (и некоторых других вопросов, таких как спорт, социальные явления, экономика и т. Д.) Прогнозного анализа Five-Thirty-Eight - грозное имя.

С начала 2008 года на сайте публиковались статьи - обычно для создания или анализа статистической информации - по широкому кругу тем из текущей политики и политических новостей. Веб-сайт, управляемый аналитиком данных и статистиком Rockstar Нейт Сильвер, приобрел особую известность и широкую известность во время президентских выборов 2012 года, когда его модель правильно предсказала победителя из всех 50 штатов и штатов. округ Колумбия.

И прежде, чем вы посмеетесь и скажете: «А как насчет выборов 2016 года?, вам, возможно, стоит прочитать эту статью о том, как избрание Дональда Трампа прошло в нормальная погрешность статистического моделирования.

Трамп - это обычная ошибка при опросе, стоящая за Клинтоном
Даже в конце президентской кампании опросы не могут точно предсказать окончательный перевес на выборах. Иногда… fivethirtyeight.com

Для более политически любознательных читателей у них есть целый пакет статей о выборах 2016 года.

Практикам в области науки о данных следует полюбить Five-Thirty-Eight, потому что он не уклоняется от объяснения своих прогнозных моделей в терминах высокотехнологичных терминов (по крайней мере, достаточно сложных для непрофессионала).

Здесь они говорят о принятии знаменитого t-распределения, в то время как большинство других агрегаторов опросов могут быть довольны повсеместным нормальным распределением.

Понимание t-распределения Стьюдента
Большинству студентов говорят, что t-распределение приближается к нормальному распределению по мере увеличения размера выборки и что… rpsychologist.com

Однако, выходя за рамки использования сложных методов статистического моделирования, команда Silver гордится уникальной методологией - рейтингом соцопросов, которая помогает их моделям оставаться очень точными и заслуживающими доверия.

В этой статье мы анализируем их данные по этим методам рейтинга.

Five-Thirty-Eight не уклоняется от объяснения своих прогнозных моделей в терминах сугубо технических терминов (по крайней мере, достаточно сложных для непрофессионала).

Рейтинг и ранжирование опрашивающего

В стране действует множество социологических опросов. Чтение и оценка их качества могут быть очень утомительными и непростыми. Согласно веб-сайту: Чтение опросов может быть опасным для вашего здоровья. Симптомы включают «перебор, самоуверенность, привязанность к бессмысленным цифрам и стремление к суждениям. К счастью, у нас есть лекарство. »( источник )

Есть опросы. Затем идут опросы опросов. Затем проводятся взвешенные опросы опросов. Прежде всего, это опрос опросов со статистически смоделированными весами и динамически изменяющимися весами.

Полевое руководство по проведению голосования на выборах 2020 - Методы исследовательского центра Pew
В то время как исследование в США проводится круглый год, общественность больше не уделяет внимания опросам… www.pewresearch.org

Звучит знакомо с другой известной методологией ранжирования, о которой вы слышали как специалист по данным? Рейтинг продуктов Amazon или рейтинг фильмов Netflix? Возможно - да.

По сути, Five-Thirty-Eight использует эту систему рейтинга / ранжирования для взвешивания результатов опроса (результатам опросов, получивших высокие оценки, придается большее значение и так далее). Они также активно отслеживают точность и методологию результатов каждого опроса и корректируют свой рейтинг в течение года.

Как FiveThirtyEight подсчитывает рейтинги участников опроса
См. Рейтинги опросов FiveThirtyEight. Рейтинги опросовщиков были одной из основополагающих характеристик FiveThirtyEight. Я был… fivethirtyeight.com

Есть опросы. Затем есть опросы опросов. Затем проводятся взвешенные опросы опросов. Прежде всего, это опрос опросов со статистически смоделированными весами и динамически изменяющимися весами.

Интересно отметить, что их методология ранжирования не обязательно оценивает опросчик с большим размером выборки как лучший. Следующий снимок экрана с их веб-сайта ясно демонстрирует это. Хотя такие опросы, как Rasmussen Reports и HarrisX, имеют больший размер выборки, на самом деле это Marist College, который получает рейтинг A + при небольшом размере выборки.

К счастью, они также открывают исходный код своих рейтинговых данных опросов (вместе с почти всеми своими другими наборами данных) здесь, на Github. А если вас интересует только красивый стол, то вот он.

Естественно, как специалист по данным, вы можете глубже изучить необработанные данные и понять такие вещи, как:

как их числовой рейтинг соотносится с точностью опросов
если у них есть пристрастие к выбору конкретных социологов (в большинстве случаев их можно разделить на демократические или республиканские)
Кто входит в опросы с самым высоким рейтингом? Много ли они проводят опросов или выборочны?

Мы попытались проанализировать набор данных для получения такой информации. Давайте копаться в коде и в выводах, ладно?

Анализ

Вы можете найти Jupyter Notebook здесь, в моем репозитории Github.

Источник

Для начала вы можете вытащить данные прямо из их Github в Pandas DataFrame следующим образом:

В этом наборе данных 23 столбца. Вот как они выглядят,

Некоторая трансформация и очистка

Мы замечаем, что в столбце есть лишнее пространство. Некоторым другим может потребоваться извлечение и преобразование типов данных.

После применения этого извлечения новый DataFrame имеет дополнительные столбцы, что делает его более подходящим для фильтрации и статистического моделирования.

Изучение и количественное определение столбца «538 баллов»

Столбцы «538 оценок» содержат суть набора данных - буквенную оценку для социолога. Как и обычный экзамен, A + лучше, чем A, а A лучше, чем B +. Если мы нанесем на график количество буквенных оценок, мы увидим в общей сложности 15 градаций от A + до F.

Вместо того, чтобы работать с таким количеством категориальных градаций, мы можем захотеть объединить их в небольшое количество числовых оценок - 4 для A + / A / A-, 3 для B и т. Д.

Коробчатые графики

Переходя к визуальной аналитике, мы можем начать с коробчатых диаграмм.

Предположим, мы хотим проверить, какой метод опроса работает лучше с точки зрения ошибки прогнозирования. В наборе данных есть столбец «Простая средняя ошибка», который определяется как «Средняя ошибка компании, рассчитанная как разница между результатом опроса и фактическим результат для разницы, разделяющей двух лучших финишировавших в гонке. "

Затем нас может заинтересовать проверка, являются ли опросы с определенной предвзятостью более успешными в назначении выборов, чем другие.

Заметили что-то интересное выше? Если вы прогрессивный, либеральный мыслитель, по всей вероятности, вы можете быть сторонником Демократической партии. Но в среднем опросы республиканцев называют выборы более точными и менее изменчивыми. Лучше следите за этими опросами!

Еще один интересный столбец в наборе данных называется NCPP / AAPOR / Roper. В нем указывается, была ли организация, занимающаяся опросами общественного мнения, членом« Национального совета по общественным опросам , участником инициативы по обеспечению прозрачности Американской ассоциации исследования общественного мнения или участником Центра исследований общественного мнения им. Ропера . архив данных ». Фактически, членство указывает на приверженность более надежной методологии опроса »( источник ).

Как судить об истинности вышеупомянутого утверждения? В наборе данных есть столбец под названием Расширенный плюс-минус, который представляет собой оценку, сравнивающую результат опроса с результатами других опросных компаний, проводящих исследования тех же рас, и что уделяет большее внимание недавним результатам. Отрицательные оценки являются положительными и указывают на качество выше среднего ( источник ).

Вот диаграмма между этими двумя параметрами. Не только опросы, связанные с NCCP / AAPOR / Roper, показывают более низкую оценку ошибок, но они также демонстрируют значительно низкую изменчивость. Их прогнозы кажутся устойчивыми и надежными.

Если вы прогрессивный, либеральный мыслитель, по всей вероятности, вы можете быть сторонником Демократической партии. Но в среднем социологи, придерживающиеся республиканской предвзятости, называют выборы более точными и менее изменчивыми.

Графики разброса и регрессии

Чтобы понять корреляцию между параметрами, мы можем взглянуть на графики разброса с регрессионной аппроксимацией. Мы используем библиотеки Seaborn и Scipy Python и настраиваемую функцию для создания этих графиков.

Например, мы можем связать правильно названные гонки с прогнозируемым плюс-минусом. Согласно Five-Thirty-Eight, Прогнозный плюс-минус - это прогноз того, насколько точным будет опросник на будущих выборах. Он рассчитывается путем пересчета продвинутого плюсово-минусового балла, проведенного социологами, на среднее значение на основе наших прокси для методологического качества . ("источник")

Или мы можем проверить, как определенная нами «Числовая оценка» соотносится со средним значением ошибок опроса. Отрицательная тенденция указывает на то, что более высокая числовая оценка связана с меньшей ошибкой опроса.

Мы также можем проверить, помогает ли «Количество опросов для анализа предвзятости» снизить «степень предвзятости », Который назначается каждому участнику опроса общественного мнения. Мы можем наблюдать нисходящую зависимость, указывающую на то, что наличие большого количества опросов действительно помогает снизить степень предвзятости. Однако это соотношение выглядит в высшей степени нелинейным, и для подбора кривой было бы лучше использовать логарифмическое масштабирование.

Можно ли больше доверять более активным участникам опросов? Мы строим гистограмму количества опросов и видим, что она подчиняется отрицательному степенному закону. Мы можем отфильтровать опросы как с очень низким, так и с очень большим количеством опросов и создать настраиваемую диаграмму рассеяния. Тем не менее, мы наблюдаем почти несуществующую корреляцию между количеством опросов и оценкой Predictive Plus-Minus. Следовательно, большое количество опросов не обязательно приводит к высокому качеству опроса и предсказательной способности.

… Наличие большого количества опросов действительно помогает снизить степень предвзятости.

Фильтрация и сортировка лучших опросовщиков

Наконец, с помощью нашей настраиваемой логики фильтрации мы можем выполнять простые операции DataFrame для извлечения списка самых популярных опросчиков. Например, мы можем задать вопрос: «Кто входит в 10 лучших социологов, которые провели более 50 опросов, и которые имеют лучшую оценку Advanced Plus-Minus?».

И вот результат. Обратите внимание, что мы не выполняли сортировку по «538 баллам» или «числовым оценкам», но, поскольку они соотносятся с оценкой «продвинутый плюс-минус», большинство респондентов в этом извлеченном списке имеют рейтинг A + или A.

Следовательно, большое количество опросов не обязательно приводит к высокому качеству опроса и предсказательной способности.

Прочие факторы

Набор данных содержит другие параметры, такие как «House Effect» и «Mean-Reverted Bias», которые также содержат информация о предвзятости. Они, несомненно, используются во внутреннем моделировании прогнозов Five-Thirty-Eight и могут быть исследованы в дальнейшем.

Резюме

В этой статье мы показали, как извлечь необработанные данные о рейтингах социологов с почтенного портала Five-Thirty-Eight и написать простой скрипт Python для выполнения подходящих преобразований и визуального анализа данных.

Опять же, вы можете найти Jupyter Notebook здесь, в моем репозитории Github.

Кроме того, вы можете проверить в репозиториях GitHub автора код, идеи и ресурсы по машинному обучению и науке о данных. Если вы, как и я, увлечены искусственным интеллектом / машинным обучением / наукой о данных, пожалуйста, не стесняйтесь добавить меня в LinkedIn или подписаться на меня в Twitter.

Тиртхаджоти Саркар - старший инженер - полупроводники, искусственный интеллект, машинное обучение - ВКЛ…
Упрощение понимания концепций науки о данных / машинного обучения с помощью письма: https: // medium. com / @ tirthajyoti Открытый исходный код и веселье… www.linkedin.com