Важность байесовской статистики, объясненная прогностическим контролем

Первоначально опубликовано на welivein.space 19 июля 2017 г.
Из-за ограничений Medium графики и уравнения отображаются в формате png.
Посетите мой блог на welivein.space, чтобы увидеть их в том виде, в котором они предназначены.

Почему статистика?

Вся шумиха вокруг машинного обучения, нейронных сетей, искусственного интеллекта а все остальное — это чистая статистика.

Мы живем в эпоху больших данных. И несмотря на то, что они находятся в центре общественных интересов, большинство людей очень мало знают о том, как мы понимаем огромные объемы информации. В этой статье я хочу представить и объяснить простую статистическую модель (теорема Байеса) и обосновать ее реальным применением: предиктивное полицейское управление.

Сложные статистические данные все больше и больше входят в нашу повседневную жизнь, хотя большую часть времени мы этого не осознаем. Все рекомендации, которые мы получаем от Amazon, Google, Facebook и так далее, являются частью того, что мы потребляем, частью того, как мы воспринимаем окружающую среду. Вся эта шумиха о машинном обучении, нейронных сетях, искусственном интеллекте. а что нет - это по сути чистая статистика. Речь всегда идет о распределениях вероятностей, метриках, f-расхождениях, функциях правдоподобия и проблемах регрессии. Обо всем этом я расскажу в следующих статьях, а пока мы придерживаемся основ. Чтобы лучше понять, что нам постоянно представляют, нам нужно понять, что такое статистика, и мы должны уметь интерпретировать такое предложение, как: Вероятность чего-то такая-то и такая-то.

Дело

Начну с того, что мотивирую тему этой статьи ссылкой на научно-фантастический фильм: Особое мнение. В этом фильме трое детей обладают экстрасенсорными способностями предвидеть преступления, которые полиция использует для предотвращения этих преступлений до того, как они произойдут. Но, конечно, есть проблема. Дети, называемые предсказателями, иногда видят разные исходы потенциальных преступлений. Короче говоря, они не на 100% уверены в подозреваемом. Это, конечно, неприемлемо и — спойлер — программа в итоге выключается. Далее в этой статье я докажу, что даже крошечное отклонение от 100% успеха — или настоящего положительного результата — имеет серьезные последствия для списка потенциальных подозреваемых.

С ростом вычислительной мощности и больших данных полиция осознала необходимость создания собственной системы предсказаний, и так родилась интеллектуальная полиция. Существует множество конкурирующих идей о том, как статистика и машинное обучение могут поддержать работу полиции, и я хочу отметить, что я пишу эту статью не для того, чтобы дискредитировать какую-либо из них, в Новой York Times, ProPublica и MIT Technology Review, все они настоятельно рекомендуются. Моя цель здесь — подчеркнуть, что в наши дни мы должны уделять очень пристальное внимание статистическим выводам, потому что они повсюду и иногда противоречат интуиции. Я также настоятельно рекомендую вам взглянуть на Algorithm Watch, берлинскую некоммерческую организацию, которая пытается пролить свет на сложные алгоритмические процессы, которые в противном случае остались бы незамеченными. Но вернемся к предсказательной полиции.

В феврале 2014 года полицейское управление Чикаго (CPD) отправляло полицейских в дома потенциальных подозреваемых, которые, скорее всего, были причастны к преступлению, из-за списка под названием Горячий список, в котором фигурировали эти люди. Этот список был составлен не вручную, а с помощью алгоритма машинного обучения, который учитывал несколько факторов. CPD заявлял, что этот список будет содержать 400 самых опасных людей в Чикаго, но так и не раскрыл полностью, как их алгоритм предсказывает потенциальных подозреваемых. Одно официальное заявление заключалось в том, что оно основано на эмпирических данных по сравнению с известными сообщниками идентифицированного лица, но Конференция по гражданским правам и правам человека пришла к выводу в своем отчете за 2014 г., что … нет общедоступного исчерпывающего описания входных данных алгоритма.

Финансирование полицейского проекта CPD по прогнозированию поступило от Национального института юстиции (NIJ), который предоставил миллионы долларов в 2009 году для применения аналитических методов — особенно количественных методов — для выявления вероятных целей для полицейского вмешательства и предотвращения преступлений. или раскрывать прошлые преступления, делая статистические прогнозы. Еще в 2014 году, во время первого полевого испытания, одним человеком в списке был Роберт Макдэниел, который никогда не совершал преступлений, но имел неправильные социальные связи, и его посетила полиция, которая предложила социальные услуги и индивидуальное предупреждение. Макдэниел сказал в интервью Chicago Tribune: «Я не сделал ничего такого, чего не сделал бы следующий подрастающий ребенок. Курить травку. Играть в кости."

На вопрос о том, насколько надежны прогнозы алгоритма CPD, Майлз Верник, технический руководитель полицейской программы прогнозирования CPD, ответил: Это люди, которых модель определила как наиболее вероятных участников перестрелки. или убийство, с вероятностью, в сотни раз превышающей вероятность обычного гражданина». Или, как сформулировал это Стивен Калурис, заместитель начальника отдела стратегии борьбы с преступностью CPD:

"Если вы попали в этот список, значит, вы там не зря".

Первая цитата Верника будет основой для наших расчетов, которые покажут, что вторая цитата Калуриса является опасным утверждением и в основном неверным.

Нам нужна математика

Во-первых, мы пытаемся сделать обоснованное предположение о вероятности того, что кто-то из этого списка никогда не был причастен к насильственному преступлению. Поскольку Верник заявил, что алгоритм будет учитывать криминальное прошлое, а обычные граждане не будут включены в этот список, мы можем напрямую связать судимости с возможностями прогнозирования алгоритма. Если вы никогда не совершали насильственных преступлений, а потом однажды полиция стоит у вашей двери и говорит, что однажды вы можете стать преступником, потому что статистика говорит им, вы должны согласиться, то это очень проблематично. Во-вторых, мы сделаем предположение о гораздо более серьезном обвинении, о возможности того, что настоящее убийство в будущем находится в списке. Но для обоих нам нужно взглянуть на математику:

В статистике есть одна очень фундаментальная теорема, она называется теорема Байеса и выглядит она так:

A и B являются так называемыми событиями и:

P(A) и P(B) — вероятности наблюдения одного из событий без учета другого. P(A) называется априорным, а P(B) маргинальным.
P(A|B) — условная вероятность наблюдения события A при условии, что B истинно. Это то, что нас интересует, и оно называется апостериорным.
P(B|A) — это условная вероятность наблюдения события B при условии, что A верно, ее часто называют вероятностью.

Мы рассмотрим каждый термин и разработаем интерпретацию того, как понимать это уравнение. Вкратце: теорема Байеса о том, насколько вероятно какое-то событие, учитывая, что теория верна и на нее влияет новая информация. Итак, давайте начнем с нашего первого вопроса:

1. Насколько вероятно, что кто-то из этого списка никогда не совершал насильственных преступлений?

Итак, А и В — события. Это означает, что они представляют собой набор исходов, и для нашего первого вопроса A и B каждый имеет по два возможных исхода:

Нас интересует: P("нет судимостей"|"в списке"), то есть: Вероятность того, что: это правда, что кто-то находится в списке без судимостей за насильственные преступления.

Определение вероятности
В этом сценарии мы предполагаем бинарный критерий для списка: либо вы в нем, либо нет. Мы ищем вероятность P("в списке"|"отсутствие судимости" и для этого используем цитату Майлза Верника, который обещал, что подозреваемый в этом списке имеет вероятность быть причастным к насильственному преступлению "сотни раз что у обычного гражданина». Мы делаем консервативное предположение и констатируем, что истинно положительный и истинно отрицательный показатель алгоритма CPD составляет 99,8 %. Это означает, что если ваше имя есть в списке, алгоритм на 99,8 %. уверен, что вы будущий преступник.У людей в этом списке тогда вероятность в 500 раз выше, чем у обычного гражданина, этого должно быть достаточно, чтобы удовлетворить заявление Майлза Верникса.
Поиск априора
Теперь это немного сложно. К сожалению, нет публикации — по крайней мере, мне не удалось ее найти — о количестве граждан с насильственными преступлениями. Вместо этого мы начнем со Стратегического плана Бюро статистики юстиции, в котором говорится, что почти 68 миллионов американских граждан имеют судимости, независимо от того, были ли они насильственными или нет. На самом деле это довольно безумное число, например, оно выше, чем весь U.S. населения 1900 г., а также наравне с числом американцев, имеющих степень бакалавра, см. также здесь. Теперь мы смотрим на процент всех преступлений, которые были насильственными преступлениями, это в ежегодном отчете о преступлениях ФБР, В нем говорится, что аресты за насильственные преступления составили 4,7% всех арестов, связанных с преступлениями в 2015 году. примерно 3,2 миллиона американцев, или 1,3%, которые, скорее всего, имеют судимость за насилие, и 98,7%, у которых их нет.
Нахождение маргинала
Чтобы найти маргинал P(B), это P("в списке") и P("не в списке"), нам нужно найти замену. Нам неизвестна вероятность появления в списке забегов без учета судимостей, но мы знаем обе вероятности P(B|A) и P(B|¬A), а также мы знать о наличии судимости или отсутствии судимостей P(A) и P(¬A). Следовательно, мы можем написать:

Давайте подумаем об этом еще раз и запишем для одного исхода. Для случая «в списке» это утверждение означает, что вероятность оказаться в списке без учета судимости равна сумме между нахождением в списке с записью и появляется в списке без одного. Так как у вас может быть только один из этих двух исходов, охватываются все сценарии.

Теперь пришло время собрать все вместе, наше окончательное уравнение выглядит так:

И мы готовы вставить все числа:

Пожалуйста, имейте в виду, что все это приблизительные оценки, основанные на консервативных первоначальных догадках, в основном с целью дать интуитивное представление о статистических процессах, но суть здесь такова:

Хотя алгоритм на 99,8 % уверен, что кто-то собирается совершить преступление, вероятность того, что этот человек никогда не был арестован за насильственное преступление, составляет 13,2 %. Это означает, что в первоначальном списке CPD из 400 самых опасных людей было, согласно этим предположениям, приблизительно 53 человека, которые никогда даже не были арестованы за насильственные преступления.

Здесь очень важно помнить, что CPD никогда прямо не говорил, что будет рассматривать только граждан без насильственных преступлений. Поэтому, возможно, эти 53 человека находятся там специально. Это как минимум спорно. Теперь мы рассмотрим более серьезное преступление, а затем дадим интуитивное объяснение этим цифрам.

2. Насколько вероятно, что в этом списке есть реальный будущий убийца?

Если бы кто-то в январе 2015 года решил стать будущим убийцей, то к концу 2015 года у нас была бы запись об этом. Таким образом, мы можем посмотреть на все убийства, совершенные в этом году, и сделать предположение о том, насколько высоки шансы, что этот человек появится в списке избранных в январе 2015 года.

Количество убийств в течение 2015 года соответствовало коэффициенту убийств 4,9 на одного жителя. Мы утверждаем, что каждое убийство было совершено разными людьми. Вероятно, это неверно, но дает нам верхнюю границу для расчетов. Мы также должны заявить, что алгоритм в принципе способен идентифицировать будущее убийство с достаточной точностью. Это также не обязательно верно, но мы предполагаем, что он имеет ту же истинную положительную и истинную отрицательную скорость, что и в нашем предыдущем расчете. Оба были 99,8%, мы получили это на основе заявления Майлза Верника.

В статистике есть забавное название для очень полезной вещи. Матрица путаницы. Он дает вам обзор истинных/ложноположительных/отрицательных показателей в компактной форме. Вот наш:

Давайте подумаем об этом еще раз. Мы не только говорим, что этот алгоритм почти совершенен в предсказании будущего убийства из группы людей, которые действительно собирались стать убийцами (Истинно Положительные), мы также говорим, что он почти совершенен в предсказании того, что вы обычный человек. гражданин без убийственных намерений (True Negative).

Итак, учитывая все граничные условия, давайте посмотрим, каковы шансы того, что настоящее убийство в будущем окажется в списке. Математика не изменилась, поэтому мы просто подставляем наши числа в теорему Байеса:

И вот оно:

Вероятность того, что наш алгоритм найдет настоящего будущего убийцу, составляет всего 19,66%.

Так что его полезность сомнительна. Ну как же так? Если вы обратили внимание, то поняли, что вероятность предсказания нашего будущего убийцы прямо пропорциональна частоте насильственных убийств. Поэтому интересно сделать такой подсчет за все годы, когда есть данные по насильственным убийствам, и на самом деле он подтверждается: Чем больше убийц вообще, тем лучше работает наш алгоритм, это можно увидеть здесь:

Вероятность найти настоящего убийцу в будущем выделена красным цветом и использует правую ось Y. Уровень насильственных убийств выделен синим цветом и использует левую ось Y. Данные взяты отсюда.

Чтобы понять это, нам нужно взглянуть на базовые ставки.

Ошибка базовой ставки

Базовая ставка — это, по сути, вопрос: «…из скольких?». Вот простой пример: некоторые тесты на простуду всегда верны на 99%, и среди людей действительно есть простуда. Можно подумать, что если вы получите положительный результат теста, у вас есть 99% шанс простудиться. Но на самом деле это только примерно 50%, потому что тест правильно определил 990 из 1000 как простудные, но также оказался положительным у 1% здоровых людей. Так что из людей с положительным тестом только 990 действительно простудились.

Базовые ставки очень важны в статистике, но ими часто пренебрегают. Есть исследования (здесь, здесь и здесь), согласно которым большинство людей даже предпочитают небайесовские объяснения. Это хлопотно, потому что всегда приводит к неправильным выводам и ожиданиям.

Давайте посмотрим на наш пример полицейского алгоритма в упрощенном виде. Во-первых, мы предполагаем, что алгоритм имеет истинный положительный показатель и истинно отрицательный показатель 100%, и, кроме того, мы утверждаем, что 100 человек классифицируются как будущие преступники из пула 500. Мы можем построить это, где синие точки — это люди, которые на самом деле дальше стал будущим преступником и красными точками стал обычным гражданином:

Мы видим, что каждый будущий преступник идентифицирован правильно, и вероятность того, что будущий преступник окажется в списке, составляет 100%.
Теперь рассмотрим случай, когда истинно положительный показатель равен 100 %, а истинно отрицательный показатель равен только 50%. Это будет выглядеть так:

Алгоритм не классифицировал некоторых будущих преступников как граждан. Хотя каждый человек в нашем списке кандидатов на самом деле станет будущим преступником, сейчас есть значительное количество преступников, которых нет в списке. Хуже того, количество преступников, которых нет в списке, в два раза больше, чем преступников в списке. Это означает: из 500 человек 300 являются будущими преступниками, но только 100 помечены как таковые. Поэтому, если вы будущий преступник, шансы попасть в список составляют всего 40%. И это несмотря на то, что наш алгоритм никогда не ошибается, когда называет кого-то будущим преступником. Итак, мы видим, что базовые ставки являются важным фактором, когда речь идет о выводах из статистики.

Байесовское мышление также важно для повседневных сценариев, таких как реальная вероятность того, что вы пьяны, когда вы получаете положительный результат теста на алкотестер, или вероятность того, что у вас рак после того, как вы получите положительный результат теста. В Википедии есть статья об этом для получения дополнительной информации, и я рекомендую прочитать ее.

На самом деле у вас никогда не будет истинного положительного показателя в 100%, и, поскольку мы говорим об огромной статистике, о размере американского населения, даже крошечное отклонение от 100% напрямую повлияет на миллионы граждан. Таким образом, фактическое предсказание (Истинно Положительные) с самого начала схематично, и, кроме того, у вас всегда будут очень высокие базовые показатели, которые необходимо принимать во внимание, иначе вы в конечном итоге сделаете неправильные выводы, как это сделал Стивен Калурис, когда он заявлял, что будет причина для включения в список. Очень часто его нет, просто статистика.

Пожалуйста, имейте в виду, что эта статья не является точной оценкой полезности или этичности интеллектуального контроля, а всего лишь введением в байесовский подход. Я надеюсь, что это поможет вам, когда вам нужно будет сделать выводы для собственных размышлений.

Изображение в шапке: Spenser H

Важность байесовской статистики, объясненная прогностическим контролем