Что такое байесовская статистика? Руководство по математике для начинающих (часть первая)

Байесовская статистика используется во многих областях, таких как: машинное обучение, инженерия, программирование, наука о данных, физика, финансы и т. д.

*Первоначально опубликовано в моем подстеке. Это лишь часть статьи.

Введение

Жизнь полна неопределенности. Даже что-то предсказуемое может не произойти.

Мы можем преодолеть неопределенность, планируя свой день. Например, если у вас личное собеседование, вы можете уйти из дома раньше, чтобы избежать задержек. У нас есть представление о том, как справляться с неопределенностью, и когда вы думаете таким образом, вы начинаете думать о вероятности.

Байесовская статистика поможет нам лучше делать выбор, учитывая нашу ограниченную информацию. От этого выиграют не только специалисты по данным; инженеры, программисты, продавцы и маркетологи получат пользу от знания байесовской статистики.

Байесовское мышление

Полный байесовский анализ состоит из следующего:

Наблюдаемые данные
Сформулировал гипотезу
Изменил свои убеждения на основе данных

Наблюдение за данными

Прежде чем делать какие-либо выводы, вам нужно понять данные, которые вы наблюдаете. Мы бы написали это как:

P(пример данных) = вероятно

где P — вероятность, а данные указаны в скобках. Вы бы прочитали это так: «Вероятность этого примера данных вероятна». Например, мы можем написать:

P(снег) = очень маловероятно

Это уравнение звучит так: «Вероятность снега очень маловероятна».

Мы также можем иметь две части данных, перечисленных в скобках. Такой как:

P(снег, температура холодная) = весьма вероятно

Вы могли бы прочитать это уравнение как: «Вероятность снега и облачного неба очень вероятна». Мы используем запятые для разделения событий, когда объединяем вероятность нескольких событий.

Вероятность того, что одно из этих событий произойдет само по себе, будет разной.

Удерживание прежних убеждений

Предыдущие убеждения — это убеждения, которые мы построили в течение всей жизни. Вы верите, что солнце сядет, потому что солнце садится каждый день. У вас может быть априорное убеждение, что на красный свет светофора вы остановитесь, а на зеленый — поедете.

Наши прежние убеждения говорят, что вероятность снега очень маловероятна. Это может быть иначе в других местах, таких как город Аомори, где большую часть времени идет снег. Вероятность снега была бы весьма вероятной.

Мы можем ввести в уравнение наши прежние убеждения, разделенные символом | нравиться:

P(снег, низкая температура | опыт в районе залива Сан-Франциско) = очень маловероятно

Мы бы прочитали это так: «Вероятность снега и низкой температуры, учитывая наш опыт в районе залива Сан-Франциско, очень маловероятна».

Вероятностный исход называется условной вероятностью.

Обычно мы используем более короткие имена переменных для событий и условий, например:

D = снег, температура холодная

X = опыт работы в районе залива Сан-Франциско.

Мы можем записать это уравнение как P(D | X). Это облегчило бы написание.

Формирование гипотезы

Чтобы объяснить то, что вы видели, вам нужна некая форма гипотезы — модель того, как устроен мир, которая делает предсказание. Гипотезы бывают разных форм:

Если вы считаете, что ваша любимая баскетбольная команда является величайшей, вы можете предсказать, что она выиграет больше чемпионатов, чем другие команды.
Если вы верите, что Земля вращается, вы предсказываете, что солнце будет заходить и всходить в определенное время.

Гипотезы также могут быть формальными:

Ученый может предположить, что определенное лечение может замедлить распространение Covid.
Нейронная сеть может предсказать, какие изображения являются светофорами, а какие — знаками остановки.

Когда мы говорим о гипотезах в байесовской статистике, нас интересует, насколько хорошо гипотезы предсказывают данные, которые мы наблюдаем.

Например, мы могли бы определить нашу первую гипотезу как:

Здесь сложно писать уравнения, поэтому полную статью читайте здесь: https://ivanh.substack.com/p/what-is-bayesian-statistics-the-beginner