"Статистика"

Дискретные распределения вероятностей с R

Распределения вероятностей описывают случайный процесс событий

Дискретные распределения вероятностей

Прежде чем перейти к теме подробно, мы должны знать, что именно означает распределение вероятностей?

Проще говоря, распределения вероятностей описывают случайный процесс (любое явление) в терминах вероятностей.

Что такое случайный процесс?

Случайное событие — это случайный процесс, для которого мы никогда не можем найти точное значение или точную вероятность. Единственный способ продолжить это предсказать его.

Например, мы можем сказать,

  • Подбрасывание монеты (исход нам неизвестен, может быть либо орел, либо решка).
  • Вытягивание карты из своей колоды (это может быть любая карта из 52 карт).
  • Описание любого события с точки зрения вероятности представляет собой распределение вероятности.

Распределения вероятностей бывают двух типов

  1. Дискретный
  2. Непрерывный

Объяснение — дискретные распределения вероятностей

Здесь мы обсудим некоторые дискретные дистрибутивы и способы их использования. Но сначала давайте перейдем к точному смыслу дискретных распределений.

Когда результатом любого случайного события является дискретный тип, т. е. счетные, конечные, неотрицательные целые числа, любое число с бесконечными десятичными знаками, то вероятность проецируется или моделируется с помощью дискретных распределений.

Базовый пример бросания игральной кости

X represents the value of a discrete random variable
P(X) represents the associated probability

Теперь появилась новая вещь — случайная переменная. Это возможное количественное значение любого результата. Здесь X может принимать значения 1, 2, 3, 4, 5, 6, потому что это единственные значения, которые могут выпасть, когда вы бросаете кости.

Итак, при работе нам нужно позаботиться о двух указателях.

Значение, которое может принимать любая случайная переменная, и связанные с ними вероятности.

Условия распределения вероятностей

  • P(X) всегда будет больше 0 для каждого значения X
  • Сумма всех соответствующих вероятностей для каждого значения X будет равна 1 в каждом случае.

(Причина этого проста, так как вероятность всегда лежит от 0 до 1 и никогда не может быть больше 1)

P(X) в технических терминах называется вероятностной функцией массы (pmf).

Анализируя условия рассмотренного выше примера, мы видим

X = 1, here P(X) = 1/6 (approx. 0.167)
X = 2, here P(X) = 1/6
X = 3, here P(X) = 1/6
X = 4, here P(X) = 1/6
X = 5, here P(X) = 1/6
X = 6, here P(X) = 1/6

Здесь условие (1) выполняется, а также для условия (2) общие вероятности при суммировании дают 1.

Рассмотрение некоторых дискретных функций распределения вероятностей вместе с методом нахождения связанной вероятности в R





ЕДИНОЕ ДИСКРЕТНОЕ РАСПРЕДЕЛЕНИЕ

Равномерное дискретное распределение имеет место, когда вероятность возникновения каждого события одинакова. Обсуждаемый нами пример бросания игральной кости является примером равномерного дискретного распределения. Вероятность (шанс) при любом значении X равна 1/6.

Нахождение вероятности того, что на кубике выпадет 2

Here, we find P(X=2)

Реализация в R

#Storing the possible values of X (1 to 6)
X<-1:6
>length(X[X=2])/length(X)
#output:
[1] 0.1666667

Нахождение вероятности того, что на кубике выпадет 6

Здесь мы находим P(X=6)

>length(X[X=6])/length(X)
#output:
[1] 0.1666667

Точно так же мы можем сделать и для других значений.

Кроме того, если мы хотим узнать P(X‹=3)

получаем вручную = P(X=1)+P(X=2)+P(X=3) = 1/6+1/6+1/6 = 1/2

In R

>length(X[X<=3])/length(X)
#output
[1] 0.5

БИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

Этот случай возникает, когда у нас есть только две возможности в наших исходах: либо успех, либо неудача.

Это распределение определяет количество успехов в n испытаниях.

При применении этого распределения нам необходимо знать некоторые функции.

dbinom() :

рассчитать вероятность при некотором фиксированном значении как P (X = 3)

pbinom() :

рассчитать кумулятивную вероятность как P(X‹=3)

Рассмотрим пример

Группа, состоящая из десяти детей, каждый из которых независимо заразился какой-либо тяжелой болезнью. Вероятность выживания при заболевании составляет 70%.

(Это просто означает, что у нас есть n = 10, а вероятность выживания p = 0,70 и q = 1-p = 0,30)

Нахождение вероятности того, что выживут ровно пять детей

Это просто означает, что мы должны найти P(X=5)

So,

Реализовать с помощью R

#USING dbinom(x,n,p)
>dbinom(5,10,0.70)
#output:
[1] 0.1029193

Нахождение вероятности того, что выжило менее 5 детей

Здесь мы должны найти P(X‹5) означает P(X‹=4)

So,

#USING pbinom(x,n,p)
>pbinom(4,10,0.70)
#output:
[1] 0.04734899

Нахождение вероятности того, что выживут не менее семи детей (означает, что выживут дети 7, 8, 9 или 10)

Здесь мы должны найти P(X›=7), то есть P(X=7) + P(X=8) + P(x=9) + P(X=10)

Or,

1-P(X‹=7) значительно упрощает наш процесс.

#USING pbinom(x,n,p)
>1-pbinom(7,10,0.70)
#output:
[1] 0.3827828

ГЕОМЕТРИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ

Это распределение такое же, как биномиальное, но основное отличие состоит в том, что в биномиальном у нас есть фиксированное количество наблюдений, тогда как в геометрическом мы продолжаем итерировать или повторять процесс, пока не увидим первый успех.

Рассмотрим сценарий подбрасывания монеты десять раз.

Здесь нахождение вероятности того, что голова появится ровно шесть раз, следует биномиальному закону.

Но если мы многократно подбрасываем монету до тех пор, пока не выпадет первая решка, то мы следуем геометрическому распределению.

Пример

Вероятность рождения ребенка женского пола независимо принимается равной 0,51.

Нахождение вероятности того, что третий ребенок женщины является ее первой дочерью

Здесь Х=3

#using dgeom(X-1,p)
>dgeom(2,0.51)
#output:
[1] 0.122451

Нахождение вероятности того, что у женщины будет не более 4 сыновей до первой дочери

Здесь мы должны найти P(X‹=4)

So,

#using pgeom(X,p)
>pgeom(4,0.51)
#output:
[1] 0.9717525

Нахождение вероятности того, что у женщины будет больше двух сыновей до первой дочери

Здесь P(X›2), что означает 1-P(X‹=2)

So,

#using pgeom()
>1-pgeom(2,0.51)
#output:
[1] 0.117649

РАСПРЕДЕЛЕНИЕ ПУАССОНА

Пуассон не имеет отношения к успехам и неудачам. Здесь мы будем знать не количество испытаний, а среднее количество событий, происходящих за определенный интервал времени.

Он используется для расчета вероятности события, когда задана средняя скорость его возникновения.

Рассмотрим пример страховой компании, которая получает претензии со скоростью 2 в месяц.

Нахождение вероятности того, что компания получит 5 претензий в месяц

#using dpois(x,m=rate)
>dpois(5,2)
#output:
[1] 0.03608941

Нахождение вероятности того, что компания получит не менее 4 претензий в месяц

Здесь нам нужно найти P(X›=4)

Или, скажем, 1-P(X‹=3)

#Using ppois(x,m)
>1-ppois(3,2)
#output:
[1] 0.1428765

Заключение

В этой статье объясняется вероятность распределения на примерах языка R.

Надеюсь, вам понравилась статья. Свяжитесь со мной на моих LinkedIn и twitter.

Рекомендуемые статьи

1. 8 Active Learning Insights of Python Collection Module
2. NumPy: линейная алгебра изображений
3. Концепции обработки исключений в Python
4. Pandas: работа с Категориальные данные
5. Гиперпараметры: RandomSeachCV и GridSearchCV в машинном обучении
6. Полное объяснение линейной регрессии с Python
7. Полное объяснение логистической регрессии с Python< br /> 8. Распределение данных с помощью Numpy с Python
9. Деревья решений против случайных лесов в машинном обучении
10. Стандартизация в предварительной обработке данных с помощью Python