Распределение вероятностей в целом подразделяется на два дискретных распределения вероятностей и непрерывные распределения вероятностей.

В этом блоге мы рассмотрим следующие дистрибутивы:

  1. Распределение Бернулли
  2. Биномиальное распределение
  3. Распределение Пуассона
  4. Равномерное распределение
  5. Экспоненциальное распределение
  6. Нормальное/гауссово распределение
  7. Логнормальное распределение
  8. Распределение по степенному закону
  9. Распределение Парето
  10. Распределение хи-квадрат
  11. Распределение Вейбулла
  12. Распределение Стьюдента

Распределение Бернулли

  • Распределение Бернулли - это одно из дискретных распределений вероятностей, которое имеет только два возможных исхода и одно испытание, которое называется испытанием Бернулли.
  • Два возможных исхода в распределении Бернулли обозначены x=0 и x=1, где x=1 называется вероятностью успеха p, а x=0 называется вероятностью неудачи q = 1. -p,и поскольку это значение вероятности, поэтому 0‹=p‹=1.

Обозначение: X ~ биномиальное (p)

Параметр: p — успешное испытание (0‹=p‹=1)

PMF = p (k) =

CDF = p (X ‹ = k) =

Среднее =

Дисперсия =

PMF распределения Бернулли

CDF распределения Бернулли

Биномиальное распределение

  • Биномиальное распределение - это тип дискретного распределения вероятностей, представляющий вероятности различных значений биномиальной случайной величины (X) в повторных независимых N испытаниях в эксперименте.
  • Например, мы изготовили лекарство и хотим найти вероятность того, что скольким пациентам будет полезно из n пациентов. Мы знаем, что результат применения лекарства у пациента 1 не зависит от результата действия лекарства у пациента 1. Для каждого пациента есть два исхода 0/1 (p/q) препарат не помог пациенту и препарат помог пациенту это не что иное, как распределение Бернулли.

Предположим, у меня есть n монет. Какова вероятность того, что я выпаду k решкой за n бросков?

Условие биномиального распределения любого распределения:

  • Есть два исхода в испытании
  • Каждое испытание независимо друг от друга.
  • Для каждого из n испытаний вероятность успеха, т.е. P(X=1), остается неизменной. р (Х = 1) = 0,5 = р
  • В каждом испытании мы можем рассматривать его как случайную величину Бернулли.

Обозначение: X ~ Bl (p, n)

Параметры: n — количество испытаний и

p - испытание успеха

PMF = p (k) =

CDF = p (X ‹ = k) =

Среднее =

Дисперсия =

PMF биномиального распределения

CDF биномиального распределения

Равномерное распределение

Равномерное распределение — это распределение, в котором вероятность появления каждого значения (либо в области, либо в интервале) одинакова.

Типы равномерного распределения

Существует два типа равномерного распределения в зависимости от типа случайной величины, используемой в распределении. Они есть

  • Дискретное равномерное распределение
  • Непрерывное равномерное распределение

Дискретное равномерное распределение

  • Это симметричное распределение вероятностей, в котором равновероятно наблюдать конечное число значений, причем все значения равновероятны. Каждый из n возможных исходов имеет равную вероятность (1/n)
  • Простым примером дискретного равномерного распределения является бросание честной кости. Возможные значения: 1,2,3,4,5,6, и каждый раз, когда бросается кубик, вероятность данного результата равна 1/6.
  • Если бросить две игральные кости и сложить их значения, то результирующее распределение перестанет быть равномерным, потому что не все суммы имеют одинаковую вероятность.

Обозначение: X ~ Unif(a,b) или U(a,b)

Параметр: где a и b — целые числа, а b›a

количество возможных исходов обозначается как «n» и (т. е. n=b-a+1)

PMF = p (X = k) =

CDF = p (X = ‹k) =

Среднее значение =

Дисперсия =

PMF дискретного равномерного распределения

CDF дискретного равномерного распределения

Непрерывное равномерное распределение

  • Если случайная величина непрерывна и следует равномерному распределению, то это распределение называется непрерывным равномерным распределением.
  • Предположим, что минимальное значение распределения равно «a», а максимальное значение распределения равно «b», вероятность появления любого значения в интервале [a,b] одинакова. Все возможные исходы равновероятны.

Обозначение: X ~ Unif(a,b) или U(a,b)

Параметр: где a и b — целые числа, а b›a

количество возможных исходов обозначается как «n» и (т. е. n=b-a+1)

PDF = p (X = k) =

CDF = p (X = ‹k) =

Среднее значение =

Дисперсия =

PDF непрерывного равномерного распределения

CDF непрерывного равномерного распределения

Распределение Пуассона

  • Распределение Пуассона — это дискретное распределение вероятностей, которое измеряет количество событий, происходящих в единицу времени.
  • Распределение Пуассона ограничено нулем и бесконечностью.
  • Некоторое событие происходит λ раз за заданный интервал времени (сек, мин, час, день,…). Какова вероятность того, что это произойдет х раз за заданное время. Это распределение вероятностей для заданного λ называется распределением Пуассона.

Предположения

  • Скорость, с которой происходят события, постоянна
  • Возникновение одного события не влияет на возникновение последующего события (т.е. события независимы)

Допустим, λ=10, что означает, что мы получаем в среднем 10 звонков в час. Теперь мы хотим посчитать, какова вероятность того, что вы получите 10, 9, 11, 15, 6 звонков в час?

Обозначение: X ~ пуассон (λ)

Параметр: λ, который представляет собой скорость, с которой происходит любое событие.

PMF = p (X = k) =

CDF = p (X = ‹k) =

Среднее значение =

Дисперсия =

PMF распределения Пуассона

CDF распределения Пуассона

Еще одним свойством распределения Пуассона является

If

X1 ~ пуассон(λ1) и X2 ~ пуассон(λ2)

(оба независимы)

Затем

(X1 и X 2) ~ пуассона (λ1 + λ2)

Экспоненциальное распределение

  • Экспоненциальное распределение — это непрерывное распределение вероятностей, которое вычисляет время между событиями.
  • Некоторое событие происходит λ раз за заданный интервал времени (сек, мин, час, день,…). Какова вероятность того, что событие произойдет через время t?
  • Допустим, λ=10, что означает, что мы получаем в среднем 10 звонков в час. Теперь мы хотим рассчитать, какова вероятность того, что вам позвонят через 10 минут, 30 минут, 1 час, 1,5 часа?
  • Это распределение вероятностей для заданного β=1/λ называется экспоненциальным распределением, которое является обратным распределению Пуассона.

Предположения

  • Скорость, с которой происходят события, постоянна
  • Возникновение одного события не влияет на возникновение последующего события (т.е. события независимы)

Обозначение: X ~ экспоненциальное (λ)

Параметр: λ, который представляет собой скорость, с которой происходит любое событие.

PDF =

CDF =

Среднее значение =

Дисперсия =

PDF экспоненциального распределения

CDF экспоненциального распределения

Свойство экспоненциального распределения без памяти

Экспоненциально распределенная случайная величина T подчиняется соотношению

Экспоненциальное распределение — это распределение без памяти. Вероятность того, что событие произойдет по крайней мере через t раз, равна вероятности того, что оно произойдет через время ожидания s.

Pr(X > s+t | X > s) = Pr(X > t)

Pr(событие произошло через 40 минут | ожидание 30 минут) = Pr(событие произошло через 10 минут)

Нормальное/гауссово распределение (μ, σ2)

  • Нормальное распределение широко используется статистиками и математиками. Чтобы случайная величина имела нормальное распределение, она должна иметь конечное среднее значение и конечную дисперсию.
  • Есть так много природных явлений, которые следуют нормальному распределению, которое также известно как распределение Гаусса. Нормальное распределение показывает, что большая часть населения имеет тенденцию иметь значение, близкое к среднему значению μ, и по мере удаления от среднего значения вероятность начинает уменьшаться в соответствии с дисперсией или стандартным отклонением σ. Он образует колоколообразную кривую вероятности.
  • Рост, вес и длина живых существ соответствуют нормальному распределению.
  • По мере увеличения n распределение выборочных средних или суммы приближается к нормальному распределению.

Когда мы берем большое количество выборок из популяции с неизвестным распределением, она следует нормальному распределению.

X ~ нормальный (μ, σ2)

Где μ - среднее значение

σ2 – стандартное отклонение

PDF = f(x) =

CDF = F(x) =

Среднее значение = Е (х) =

Дисперсия = Var(x) =

PDF нормального распределения

CDF нормального распределения

Эмпирическое правило или правило 68–95–99,7

Правило 68–95–99,7 или эмпирическое правило используется для запоминания процента значений, лежащих в интервальной оценке нормального распределения.

68%, 95% и 99,7% значений лежат в интервалах первого, второго и третьего стандартных отклонений соответственно с обеих сторон.

Например, у нас есть нормальное распределение со средним значением 150 и стандартным отклонением 25, тогда 1σ = 25; 2σ = 50, 3σ = 75

68% значений лежат в интервале [150–25, 150+25] (т.е. [125,175])

95% значений лежат в интервале [150–50, 150+50] (т.е. [150,200])

99,7% значений лежат в интервале [150–75, 150+75] (т.е. [75,125])

Примечание. Среднее значение нормального распределения не всегда обязательно должно быть равно 0. Оно также может быть отличным от нуля значением. Но однажды, если значения стандартизированы, среднее становится равным 0, а стандартное отклонение становится равным 1.

Стандартная нормальная вариация (Z) и стандартизация

Стандартное нормальное распределение — это нормальное распределение со средним значением, равным нулю, и стандартным отклонением, равным 1.

Стандартная нормальная переменная — Z-оценка — это числовое измерение, описывающее отношение значения к среднему значению группы значений.

Если у нас есть случайная величина «Z» со средним значением 0 и стандартным отклонением 1 и следующим нормальным распределением, «Z» называется стандартной нормальной переменной. Он представлен как Z~N(0,1)

Стандартизация — это процесс преобразования данного распределения со средним значением «µ» и дисперсией «σ 2 » в распределение того же типа со средним значением 0 и стандартным отклонением 1. (Даже дисперсия также будет равна 1)

Примечание. Стандартизация просто преобразует данное распределение значений в новую шкалу со средним значением = 0 и стандартным отклонением = 1. Характер распределения совсем не меняется (независимо от того, является ли распределение гауссовская или негауссовская)

Логнормальное распределение: логнормальное (μ, σ2)

  • Непрерывное распределение вероятностей называется логарифмически нормальным, если его натуральный логарифм соответствует нормальному распределению.
  • Если случайная величина X имеет логарифмически нормальное распределение, то Y=ln(X) имеет нормальное распределение.
  • Точно так же, если Y = ln (X) имеет нормальное распределение, X = exp (Y) имеет логарифмически нормальное распределение.
  • Если что-то с большей вероятностью произойдет за короткий промежуток времени, а затем вероятность того, что это произойдет, медленно уменьшается с течением времени, обычно имеет нормальное распределение Log.

X ~ LogNormal (μ, σ2)

Где μ - среднее значение

σ2 – стандартное отклонение

PDF = f(x) =

CDF = F(x) =

Среднее значение = Е (х) =

Дисперсия = Var(x) =

Если X ~ LogNormal(µ, σ2)

Тогда y = log(x) и y следует нормальному распределению (Natural log).

PDF логнормального распределения

CDF логнормального распределения

Логарифмическое нормальное распределение всегда имеет положительную асимметрию. Шансов попасть в негативную ситуацию нет. Каждое логарифмическое нормальное распределение является асимметричным распределением, но каждое асимметричное распределение не является логарифмически нормальным распределением.

Для логарифмически нормального распределения мы не можем применить правило 68–95–99,7, так как это не гауссово распределение. Но однажды, если мы применим натуральный логарифм к логарифмически нормально распределенной переменной, функция затем после преобразования следует нормальному распределению, и тогда применимо правило 68–95–99,7.

Если «X» следует логарифмически нормальному распределению, то Y=ln(X) следует нормальному распределению. Y~N(μ, σ)

Согласно нормальному распределению,

68% данных лежат в [μ-σ, μ+σ]

95% данных лежат в [μ-2σ, μ+2σ]

99,7% данных лежат в [μ-3σ, μ+3σ]

As Y=ln(X) ⇒ X = eY

Таким образом, 68% данных в «X» лежат в [eμ-σ, eμ+σ]

Таким образом, 95% данных в «X» лежат в [eμ-2σ, eμ-2σ]

Таким образом, 99,7% данных в «X» лежат в [eμ-3σ, eμ-3σ]

Здесь μ,σ — параметры «Y»

Как проверить, является ли данное распределение логарифмически нормальным

Пусть «X» будет заданным входным распределением. Давайте вычислим натуральный логарифм для значений «X» и обозначим их как «Y». (т. е. Y = ln(X)).

Проверьте с графиком QQ, является ли Y нормальным или нет. График QQ со значениями «Y» на оси «Y» и случайно сгенерированным нормальным распределением N (μ», σ2) на оси «X». Если график выглядит как прямая линия, то мы можем подтвердить, что «Y» имеет нормальное распределение, а «X» — нормальное логарифмическое распределение.

Применения нормального распределения журналов

  • Длина комментариев, размещенных на дискуссионных интернет-форумах, соответствует логарифмическому нормальному распределению.
  • Время, затрачиваемое пользователями в Интернете на чтение статей/блогов и т. д., также соответствует нормальному распределению журналов.

Почему пик логарифмически нормального распределения не считается его средним значением?

Нормальное/гауссово распределение симметрично, и 50% значений лежат на одной стороне.

а остальные 50% значений лежат на другой стороне. Таким образом, мы можем сказать, что самый высокий пик гауссовского распределения является его средним значением.

Но в случае логарифмически нормального распределения мы не можем гарантировать, что среднее

точно присутствует на самом высоком пике, так как кривая асимметрична.

Распределения по степенному закону

Степенной закон — это функциональная связь между двумя величинами, при которой относительное изменение одной величины приводит к пропорциональному относительному изменению другой величины, независимо от начального размера этих величин. (т. е. одна величина изменяется в зависимости от степени другой).

Степенной закон следует правилу 80–20. Что в данном распределении «X» 80% значений распределения лежат ниже 20% значений «X». Всякий раз, когда распределение следует степенному закону, это распределение называется распределением Парето. У функций степенного закона есть длинный хвост. Распределения Парето предназначены для непрерывных случайных величин.

Распределение Парето

Любое распределение, которое следует распределению по степенному закону, известно как распределение Парето.

Параметры распределения Парето:

  • хм›0. Этот параметр называется масштабом и принимает только реальные значения. Это похоже на «μ» в распределении Гаусса.
  • α ›0. Этот параметр называется shape и принимает только реальные значения. Это похоже на «σ» в распределении Гаусса.

Пример — 80% богатства общества принадлежит 20% людей.

PDF распределения Парето

CDF распределения Парето

Из графиков PDF мы видим, что по мере того, как значение «α» продолжает уменьшаться, хвосты становятся менее толстыми. При α → бесконечность PDF становится дельта-функцией (т. е. прямой вертикальной линией с одним значением). Здесь эта дельта-функция имеет значение только в одной точке, тогда как в остальных точках она принимает значение равное 0. Такая функция называется дельта-функцией Дирака.

Общим моментом в парето- и логарифмическом нормальном распределении является то, что «оба распределения имеют небольшое количество больших значений и большое количество меньших значений. Но основное отличие состоит в том, что в распределении Парето нет возрастающей PDF.

Как проверить, соответствуют ли две заданные переменные степенному закону?

Один из подходов к проверке того, следуют ли две заданные переменные степенному закону, — это использование логарифмического графика. Если «X» и «Y» - две заданные переменные, то если мы построим график с Log (X) по оси X и Log (Y) по оси Y, и если график сходится к прямой линии, как показано на фигуре, то можно сказать, что распределение имеет степенной хвост. (т. е. обе переменные следуют степенному закону) Прямая линия на логарифмическом графике является убедительным доказательством степенного закона, а наклон прямой линии соответствует показателю степени.

Если вы обнаружите, что распределение является распределением по Парето, вы можете применить преобразование Бокса-Кокса, чтобы преобразовать его в нормальное/гауссово распределение.