Наука о данных

Теорема Байеса

Интуиция против интуитивной теории

Теорема Байеса - моя самая любимая статистическая теория. Это помогает нам понять, что кажется очевидными проблемами с вероятностью противоречащими интуиции! Например, какова вероятность заболевания при тестировании с точностью 95%? Ниже, чем вы думаете!

Теорема

Начнем с основ. Вот формула:

Суть Байеса заключается в вычислении условной вероятности, то есть вероятности одного события при наличии другого. Вот что | символ (вертикальная черта) обозначает в уравнении. Итак, P (A | B) - это условная вероятность возникновения события A при условии, что событие B произошло.

Немного истории

Я большой ботаник-историк, поэтому мне нужно немного рассказать о преподобном Томасе Байесе. Байес был пресвитерианским министром, статистиком и философом в Англии 18 века. Он сформулировал основную теорию в Очерке решения проблемы в Доктрине Шансов (я голосую за ребрендинг статистики в Доктрину Шансов), пытаясь решить проблему обратных вероятностей или учитывая, что x произошло, что уж говорить о y.

Байесовский против. Частотник

Есть два основных лагеря в области выводимой статистики или использования данных выборки для вывода о выборке населения: байесовские и частотные. Эти две группы совершенно по-разному думают о вероятности. Для частотников определение вероятности более ограничено. Только случайные, повторяющиеся события имеют вероятности, и мы не можем связывать вероятности с гипотезами или неизвестными значениями. Они утверждают, что использование априорных вероятностей по своей сути субъективно и, следовательно, не может использоваться в качестве основы для логического, непредвзятого понимания.

Для байесовца нет проблем с приписыванием неизвестных значений и гипотез с вероятностью, даже если они случаются нечасто. Они утверждают, что мы должны включить априорные вероятности, потому что они предоставляют больше информации / контекста, чем необработанные частоты. [1]

Пример

Давайте начнем с классического примера из теоремы Байеса: проходим тест на редкое заболевание! Вот наша основная формула, и затем мы можем заменить то, что мы на самом деле ищем, в основном «Какова вероятность того, что у вас есть заболевание, учитывая, что ваш тест дал положительный результат?». Если мы слышали, что тест дает точность 95%, то очевидным, интуитивно понятным и неправильным ответом будет 0,95!

Давайте начнем с понимания наших переменных по отдельности.

P (заболевание | положительный результат) → какова вероятность того, что у вас есть заболевание, учитывая положительный результат теста?

P (положительный | болезнь) → какова вероятность того, что у вас был положительный результат теста, учитывая, что вы действительно больны? Это чувствительность теста, или истинно положительный результат, здесь 95%. Допустим, специфичность теста, истинно отрицательный результат, также составляет 95%.

P (болезнь) → какова вероятность заболеть? Это уровень заболеваемости среди населения. Допустим, это 1/1000 или 0,001.

P (положительный результат) → какова вероятность положительного результата теста? Здесь появляется первый гаечный ключ, потому что вы можете получить положительный результат и иметь болезнь (истинные положительные результаты) или вы можете получить положительный результат и не иметь болезни (ложные положительные результаты).

Какой в ​​этом смысл? Менее 2% из тех, у кого положительный результат теста, болеют этим заболеванием?

Некоторая интуиция

Как люди, мы довольно плохо понимаем относительный размер чисел, особенно когда их порядок увеличивается. Что здесь происходит, так это то, что мы видим 95% истинного позитива и не понимаем, что 95% небольшого числа меньше 5% гораздо большего числа! Это то, что фиксирует P (pos). При положительном тесте у вас гораздо больше шансов быть здоровым и получить ложноположительный результат, чем иметь заболевание (в конце концов, это всего 1/1000) и получить положительный результат.

Применение байесовского

Анализ ваших данных

Байеса можно использовать для лучшего понимания ваших данных. В качестве примера я изучал этот популярный набор данных для велосипедных прогулок. В нем у нас есть различные функции, связанные с погодными условиями, которые вы можете использовать, чтобы задавать интересные вопросы и способствовать пониманию бизнеса.

Учитывая, что идет дождь, какова вероятность того, что случайный гонщик возьмет напрокат велосипед? Какова вероятность хорошей погоды при высоких температурах? Как это влияет на количество пассажиров? К этим вопросам можно подойти по-разному, но, надеюсь, применение теоремы Байеса теперь станет вариантом, который вы рассмотрите! Например, понимание A / B-тестирования - отличное приложение.

Машинное обучение

Я свяжу этот отличный обзор Джейсона Браунли. Наивный байесовский метод - это очень распространенная модель классификации, которая вычисляет P (класс | данные) или вероятность класса с учетом данных. Оптимальный байесовский классификатор можно использовать для прогнозирования новых наблюдений с учетом предыдущих данных обучения. Байесовская оптимизация может использоваться для точной настройки гиперпараметров моделей машинного обучения. Браунли освещает все это и многое другое в руководстве, и он делает это лучше, чем я.

Верны ли результаты нашего исследования?

В 2005 году Джон Иоаннидис опубликовал интересную и противоречивую статью под названием « Почему большинство опубликованных результатов исследований ложны ». В нем он использует теорему Байеса, чтобы доказать, что, как и в нашем примере выше, вероятность того, что явление истинно, при положительном результате исследования намного ниже, чем мы думаем. Это может быть опасно, потому что мы можем принять исследование как факт без дополнительной проверки. Это также подчеркивает важную проблему в научном сообществе, в основном, отсутствие финансирования / интереса к воспроизведению предыдущих исследований.

Заключение

Теорема Байеса позволяет нам логически и прямо преодолеть наши неверные интуитивные представления об условной вероятности. Его приложения реальны и разнообразны: от понимания результатов наших тестов (с реальными последствиями) до улучшения наших моделей машинного обучения. Я надеюсь, что это руководство было полезным и осветило некоторые противоречивые аспекты Байеса.

Соединять

Я всегда ищу возможности познакомиться и изучить другие проекты!

LinkedIn | Средний | GitHub