Распределение вероятностей — это наиболее фундаментальное понятие в статистике и аналитике, представляющее собой математические функции, используемые для описания событий, происходящих в повседневной жизни. Распределение вероятностей дает все возможные значения правдоподобия, основанные на различных значениях случайных переменных в событии. События могут варьироваться от выявления госпитализаций из-за инфекции до оценки возврата запасов с течением времени. Эти дистрибутивы позволяют:

  • Изучайте и анализируйте данные
  • Проверка предположений с помощью проверки гипотез
  • Получить центральные тенденции, дисперсионную статистику и т. д.
  • Прогнозируйте другие значения и запускайте дальнейшие симуляции

Общее уравнение для функции распределения вероятностей.

p(x) = вероятность того, что случайная величина примет определенное значение x

Существуют десятки распределений вероятностей различной формы и характеристик, зависящих от различных факторов, таких как тип случайных величин, сводная статистика и т. д. В основном распределения делятся на два типа: дискретное распределение вероятностей (для дискретных случайных величин), и Непрерывное распределение вероятностей (для непрерывных случайных величин). Большинство повседневных событий могут быть статистически смоделированы всего несколькими вероятностными распределениями, а именно:

Дискретные распределения вероятностей

  • Распределение Бернулли
  • Биномиальное распределение
  • Полиномиальное распределение
  • Гипергеометрическое распределение
  • Геометрическое распределение
  • распределение Пуассона

Непрерывные распределения вероятностей

  • Нормальное распределение
  • Логнормальное распределение
  • Экспоненциальное распределение
  • Бета-распределение
  • Гамма-распределение
  • Распределение Вейбулла

В этом посте я собираюсь обсудить два наиболее часто используемых распределения вероятностей и их применение в корпоративных условиях.

Биномиальное распределение — дискретное вероятностное распределение

Биномиальное распределение вероятностей используется, когда исход является дихотомическим, т. е. исход имеет два возможных исхода (отсюда «биномиальное»). Например, биномиальное распределение можно использовать для моделирования вероятности количества возвратов покупок каждую неделю в розничном магазине. В этом примере есть два исхода: можно ли вернуть товар или нет. Два исхода часто обозначаются как «успех» и «неудача», где успех указывает на наличие интересующего исхода. Модель биномиального распределения позволяет вычислить вероятность наблюдения определенного количества «успехов», когда процесс повторяется определенное количество раз.

Предположения, необходимые для использования модели биномиального распределения: -

  • Каждое повторение процесса приводит к одному из двух возможных результатов (успеху или неудаче).
  • Вероятность успеха одинакова для каждой репликации, и
  • Репликации независимы, что означает, что успех у одного пациента не влияет на вероятность успеха у другого.

Корпоративное приложение биномиального распределения

Биномиальное распределение можно использовать для моделирования рейтинга кликов маркетинговой рекламной кампании. Два результата: щелчок или отсутствие щелчка по рекламному баннеру. Вероятность успеха — это рейтинг кликов, который определяется как количество кликов по объявлению из общего числа показов (количество пользователей, которым было показано объявление). Биномиальное распределение можно использовать для обнаружения аномалий в кампании.

Рассмотрим этот пример:

Если объявление было показано 750 пользователям и 34 кликнули по нему. Это дает показатель кликабельности 4,5%. Если средний рейтинг кликов по всем предыдущим объявлениям был 6%, то можно задаться вопросом: какова вероятность того, что на этот раз будет наблюдаться не более 4,5%? Чтобы ответить на этот вопрос, клики можно смоделировать биномиальным распределением с вероятностью успеха 6%, которое выглядит так:

Итак, вероятность 34 кликов по объявлению из 750 показов составляет 4,88%, что очень маловероятно. Из этого можно сделать вывод, что либо рекламная кампания была ужасной, либо рекламный провайдер не показал рекламу 750 пользователям.

Еще одним популярным применением биномиального распределения является «Модель биномиальной регрессии», которая представляет собой обобщенную линейную модель для наборов данных, в которой зависимая переменная y следует биномиальному распределению вероятностей. Модель биномиальной регрессии можно использовать для прогнозирования шансов увидеть событие с учетом вектора регрессионных переменных.

Экспоненциальное распределение — непрерывное распределение вероятностей

Экспоненциальное распределение обычно используется для моделирования времени, необходимого для возникновения события. Обычный вариант использования экспоненциального распределения — моделирование жизненного цикла продукта или времени до того момента, когда продукт прослужит долго. Другой пример: сумма денег, которую покупатели тратят за один поход в супермаркет, подчиняется экспоненциальному распределению. Есть больше людей, которые тратят небольшие суммы денег, и меньше людей, которые тратят большие суммы денег.

Корпоративное приложение экспоненциального распределения

Одним из распространенных вариантов использования экспоненциального распределения является «моделирование надежности (отказа)». Моделирование надежности - это метод контроля качества в статистическом управлении процессами (SPC), позволяющий моделировать время, в течение которого продукт будет работать до того, как произойдет отказ. Это распределение использует постоянную частоту отказов (λ) и предполагает, что интенсивность отказов является постоянной. Это ценный инструмент для прогнозирования среднего времени наработки на отказ, который играет важную роль в профилактическом обслуживании и проектировании надежности.

Возьмем, к примеру, этот сценарий: время между отказами машины моделируется экспоненциальным распределением, а время между двумя отказами (1/λ) составляет 112,4 часа. Цель команды «Шесть сигм» — увеличить время наработки на отказ до значения, превышающего или равного 150 часам. Итак, команда хочет узнать вероятность отказа машины через 150 часов. PDF экспоненциального распределения можно использовать для расчета вероятности.

Лямбда (λ) = 1/112,4 = 0,008897

F (время между событиями ‹ x) = 1 − e−λt

F (время между событиями ‹ 150) = 1-e-0,008897×150 = 1–0,263277 = 0,736723

Вероятность отказа подшивочной машины через ‹ 150 часов составляет 73,7% в ее текущем состоянии. Это сформирует базовое измерение, и команда будет работать над снижением частоты отказов продукта.

Ссылки:

  1. Фрост, Дж. (18 ноября 2021 г.). Понимание распределения вероятностей. Статистика Джима. Получено 13 января 2022 г. с https://statisticsbyjim.com/basics/probability-distributions/ (ссылки на внешний сайт).
  2. Олешак, М. (2022, 7 января). Использование вероятностных распределений | На пути к науке о данных. Середина. Получено 13 января 2022 г. с https://towardsdatascience.com/6-useful-probability-distributions-with-applications-to-data-science-problems-2c0bee7cef28 (ссылки на внешний сайт).
  3. БУ, Б. (2004, 1 марта). Биномиальное распределение: вероятностная модель дискретного результата. Сфвеб. Получено 13 января 2022 г. с https://sphweb.bumc.bu.edu/otlt/mph-modules/bs/bs704_probability/bs704_probability7.html (ссылки на внешний сайт).
  4. Дата, С. (2021, 30 сентября). Модель биномиальной регрессии. Анализ временных рядов, регрессия и прогнозирование. Получено 13 января 2022 г. с https://timeseriesreasoning.com/contents/binomial-regression-model/ (ссылки на внешний сайт).
  5. Сигма, С. (2009 г., 2 мая). Экспоненциальное распределение. Six-Sigma-Material.Com. Получено 13 января 2022 г. с https://www.six-sigma-material.com/Exponential-Distribution.html (ссылки на внешний сайт).
  6. Ал., EOIB (2011, 12 августа). Экспоненциальное распределение | Введение в статистику. ЛюменОбучение. Получено 13 января 2022 г. с https://courses.lumenlearning.com/introstats1/chapter/the-exponential-distribution/