В наши дни кажется, что статистика, машинное обучение и большие данные находятся на переднем крае почти во всех мыслимых областях, от политики до здравоохранения и рекламы. Хотя эта неуклонная революция, несомненно, захватывающая, она также побуждает нас более внимательно прислушиваться к мудрым словам дяди Бена Человека-паука: «с большой силой приходит большая ответственность».

В самом деле, подобно тому, как эти поля обладают огромной силой, способной принести в мир устойчивые позитивные изменения, они также могут быть использованы для достижения эгоистичных, сомнительных и откровенно злых целей. .

На время этой статьи представьте, что вы возглавляете злобную фармацевтическую операцию. Ваша последняя схема - выпустить на рынок «чудо-пилюлю», которая обещает обуздать желание человека посещать сайты социальных сетей, такие как Facebook, Instagram и т. Д. Будучи злодеем, которым вы являетесь, вы планируете полностью продать фальшивая таблетка и используйте сильно искаженную статистику, чтобы завоевать доверие людей.

Ваш подлый план состоит всего из трех компонентов: докажите, что ваша чудо-таблетка очень нужна, докажите, что ваша чудо-таблетка сдерживает желание выходить в социальные сети, докажите, что ваша чудо-таблетка сделала свое дело после некоторого времени. время на рынке.

Доказательство необходимости вашей чудо-таблетки

Чтобы приступить к своей схеме, вам нужно убедить всех, что использование социальных сетей полностью вышло из-под контроля, и для этого потребуется ваша чудо-таблетка. Вы создаете опрос для смартфонов в Facebook, спрашивая людей, сколько часов они проводят в социальных сетях каждый день. Получив результаты, вы обнаружите, что в среднем человек проводит в социальных сетях 4 часа в день!

Так что же такого плохого в вашем опросе? Что ж, тот факт, что вы спрашиваете об использовании социальных сетей на платформе социальной сети, Facebook, почти наверняка искажает ваши результаты в пользу большего количества часов, о которых сообщается в социальных сетях. Другими словами: кто-то, кто ответил на ваш опрос, должен был быть на Facebook, чтобы даже найти ваш опрос. Конечно, вы опустите эту маленькую деталь в пресс-релизе.

Этот тип статистического неправильного использования статистики называется чрезмерным обобщением и происходит, когда выборка не репрезентативна для генеральной совокупности. Здесь наше население будет состоять из всех американцев, но наша выборка включает только тех, у кого уже есть учетная запись в Facebook.

Так как же защититься от такого типа статистических атак? Как и в случае с другими злоупотреблениями статистическими данными, которые мы вскоре увидим, мы можем защитить себя, потребовав ответов на некоторые важные вопросы. Для чрезмерного обобщения мы хотим спросить «Кто?» вопрос: «Кто входит в выборку и являются ли они репрезентативными для населения, которое мы пытаемся измерить?»

Доказательство жизнеспособности вашей чудо-таблетки

Хорошо, все идет по плану. Вы убедили всех, что использование социальных сетей выходит из-под контроля, и получили огромные средства для финансирования своей чудо-таблетки. Затем вам нужно провести клинические испытания своей таблетки и показать, что она действительно снижает чье-то желание посещать сайты социальных сетей. Конечно, проблема только в том, что ваша таблетка - полная подделка.

Но привет! Вы злой ученый; вы никогда не позволите такой тривиальной вещи, как правда, помешать вашим планам. Благодаря вашему обильному финансированию вы запускаете 100 испытаний, в каждом из которых участвует несколько человек, и вводите переменные количества Miracle Pill каждому участнику. Вы отслеживаете их использование социальных сетей с течением времени, и для каждой группы участников вы измеряете наличие положительной корреляции (увеличение использования социальных сетей), отрицательной корреляции (снижение использования социальных сетей) или отсутствие корреляции (отсутствие значительных изменений в использовании социальных сетей. ).

Ваши результаты показаны ниже.

Хорошо, очевидно, что твоя таблетка - бесполезная. Только 5 из 100 испытаний указывают на снижение использования социальных сетей, 5 фактически демонстрируют рост использования социальных сетей, а колоссальные 90 испытаний не показывают значительных изменений в использовании социальных сетей. Не беспокоиться! Вы просто сообщите пятерку, показывающую падение использования социальных сетей. Вы помещаете заголовок в своем пресс-релизе следующим образом: «Чудодейственная таблетка постоянно демонстрирует снижение использования социальных сетей в 5 независимых исследованиях». Технически, вы неправы?

Этот тип злоупотребления статистикой известен как Сбор вишни. Это действие простого отбора доказательств, подтверждающих результат, при игнорировании всех остальных доказательств. Легко понять, почему это действительно так зловеще. Ничего не подозревающий представитель общественности даже не узнает обо всех доказательствах, опровергающих это утверждение.

Как лучше всего защититься от сбора вишни? Мы всегда должны спрашивать «Сколько?» вопрос: «Сколько испытаний рассказывают иную историю, чем только те, на которые есть ссылки?»

Доказательство результатов вашей чудодейственной таблетки

Идеально! Вы показали всем, что ваша чудодейственная таблетка абсолютно необходима, а затем убедили всех, что ваша таблетка делает то, что, по ее словам, может. В результате ваша таблетка находится на рынке уже несколько месяцев, и вам просто нужно доказать, что она оказывает ожидаемое влияние на использование социальных сетей. Ваш отдел маркетинга должен создать для вас эту отличную диаграмму.

Очевидно, что из этой диаграммы ясно, что с тех пор, как ваша чудо-таблетка появилась на рынке, использование социальных сетей все уменьшалось. Очевидно, это должно быть из-за вашей таблетки.

Что ж, в этой истории есть пара недостатков. Во-первых, похоже, что использование социальных сетей все равно сокращалось еще до того, как была выпущена ваша таблетка. Во-вторых, существует веское альтернативное объяснение того, почему использование социальных сетей сокращается в период праздников: люди могут проводить больше времени со своей семьей, друзьями и близкими и меньше - в социальных сетях.

Этот тип неправильного использования статистики является довольно популярным и известен как Ложная причинность или «корреляция не подразумевает причинно-следственную связь». То есть наличие корреляции между продажами чудодейственных таблеток и снижением использования социальных сетей не означает, что сокращение использования вызвано таблеткой.

Как мы можем защитить себя от ложной причинности? Было бы хорошо спросить «Почему?» вопрос: «Почему я вижу результат, который вижу? Это связано с заявленной причиной или может быть связано с другими возможными объяснениями? »

На изображении выше мы спрашиваем себя, вызвало ли A B или оба A и B были результатом другой переменной C. Таким же образом мы должны спросить себя, увеличились ли продажи таблеток причиной прекращения использования социальных сетей или же как увеличения продаж таблеток, так и уменьшения количества социальных сетей было вызвано приближающимися праздниками.

Ключевые выводы

Приведенные выше примеры, конечно же, являются сильно упрощенными версиями того, что происходит в реальной жизни. К сожалению, обычно намного сложнее понять, когда нам лгут под видом красивой, профессионально выглядящей диаграммы или статистического отчета. Кроме того, вводящие в заблуждение диаграммы и серьезные злоупотребления статистикой обычно не являются делом рук злонамеренных фармацевтов, а скорее всего лишь люди, не проявляющие осторожности при формулировании своих статистических моделей.

Соответственно, становится все более важным развивать здоровую подозрительность при рассмотрении любого статистического анализа. Простые ключевые вопросы, которые мы сформулировали в этой статье, могут иметь большое значение для защиты от мрачной статистики.