Трамп, Brexit, Сандерс, Ле Пен, Вилдерс, Иглесиас. Ципрас… кошмар аналитики

Посетите коктейльную вечеринку. Начни разговаривать с кем угодно, меняйся профессиями. «Я развертываю аналитику для бизнеса», говорите, что? «Хм… я зарабатываю на жизнь статистикой». Затем неловкий момент, когда мы оба знаем, что думает другой. Статистика, он? Как та книга, что это было? Как врать со статистикой?

Ага, как та книга.

Обязательно сегодня. Весь американский аппарат опросных компаний, консультантов, консультантов… все они ошибались. Даже Нейт Сильвер. Как оказалось, все они лгали. Потому что любой достойный статистик должен был бы устать от больших доверительных интервалов и отсутствия анализа мощности для размеров выборки, верно? Правильно?

Услышать глухой смех в ответ.

Дело в том, что статистика, или расширенная аналитика, как ее сегодня называют, — это всего лишь еще одно компьютерное приложение. Точнее, один из старейших. Статистические данные рождались из актуарных баз данных, что способствовало развитию вычислительной мощности для их анализа. Уже тогда люди, занятые анализом данных, хорошо знали то, что позже стало известно как принцип «мусор на входе, мусор на выходе». Если вы введете нерелевантные данные в свои расчеты, вы получите нерелевантные результаты. И это проблема сегодня, в нашем дивном новом мире больших данных, где большинство из нас обеспокоено тем, что наши старшие братья и сестры наблюдают за нами. Теперь, мы действительно должны быть обеспокоены? Или старший брат и старшая сестра тонут в море данных? Действительно ли они знают, как ориентироваться в водах этих знаменитых озер данных, столь популярных сегодня в индустрии ИКТ?

Несомненно, технологии будут развиваться. Но даже в самых передовых инструментах, разрабатываемых и используемых сегодня, таких как искусственный интеллект, все сводится к тому, какие данные мы загружаем в машину. Наверняка в ИИ, где обучающие наборы, которые мы используем для обучения наших алгоритмов работе, определяют их функционирование. Или в предсказании социальных настроений. Статистики сейчас такие же, как те ошарашенные политики. Разрушенный Трампом или Ле Пен. Или Чавес, Иглесиас и Ципрас, если вы предпочитаете левое крыло политического спектра. Политики, которые решили использовать другой тренировочный набор. Вместо того, чтобы пробовать свое послание к публике, традиционно интересующейся политикой, они решили обратиться к другим, обездоленным, обездоленным. Неважно, что они сказали, но помните об их стратегии: используйте лучший образец.

Независимо от того, собирается ли мой читатель заняться политикой или анализировать другой набор данных, сообщение остается прежним. Ваша выборка имеет значение даже больше, чем ее размер.