Случайная переменная:

Дискретная случайная величина: X является дискретной случайной величиной, если ее диапазон является счетным.

Непрерывная случайная величина. Непрерывная случайная величина — это случайная величина, данные которой могут принимать бесконечное множество значений. Например, случайная величина, измеряющая время, необходимое для того, чтобы что-то сделать, является непрерывной, поскольку существует бесконечное число возможных меток времени, которые можно взять.

Население и выборка:

  • Население включает все элементы из набора данных. Среднее значение совокупности обозначается как μ.
  • Выборка состоит из одного или нескольких наблюдений, полученных от генеральной совокупности. Среднее значение выборки обозначается как . Если выборка производилась случайным образом, то такая выборка называется случайной.

По мере увеличения размера выборки средние значения выборки сходятся к среднему значению генеральной совокупности.

В зависимости от метода выборки в выборке может быть меньше наблюдений, чем в генеральной совокупности, такое же количество наблюдений или больше наблюдений. Из одной и той же совокупности может быть получено более одной выборки.

Распределение Гаусса (нормальное распределение):

  1. Среднее значение, медиана и мода распределения совпадают.
  2. Кривая распределения имеет колоколообразную форму и симметрична относительно линии x=µ.
  3. Общая площадь под кривой равна 1.
  4. Ровно половина значений находится слева от центра, а другая половина — справа.

Большинство непрерывных случайных величин по своей природе подчинялись распределению Гаусса. Функцию плотности вероятности можно показать ниже.

Пик в основном расположен в среднем положении населения, где σ² обозначает дисперсию населения. σ² определяет форму PDF.

  1. По мере увеличения x (отдаляясь от μ) y уменьшает экспоненциальное значение квадрата.
  2. Кривая симметрична.
  3. Падение формы экспоненциально квадратично.

Когда среднее значение = 0, все кривые имеют вероятность = 0,5.

По мере уменьшения дисперсии кривая пытается стать вертикальной линией при x=0.

правило 68–95–99,7

68% точек лежат в пределах от -1σ до 1σ отклонения от среднего.

Симметричное распределение, асимметрия и эксцесс:

Симметричное распределение – это тип распределения, в котором левая часть распределения отражает правую. По определению, симметричное распределение никогда не бывает асимметричным распределением.

  1. Куртозис измеряет остроконечность распределения.
  2. На среднее влияют выбросы.

Кривая над нормальным графиком представляет собой положительный эксцесс, а ниже нормальной кривой (N = 0) - отрицательный эксцесс.

Стандартный нормальный вариант:

Учитывая любое распределение с заданными точками (X1,X2,X3,X4..) со средним значением и дисперсией = N(µ,σ²), вы можете стандартизировать преобразование в стандартную нормальную переменную N(0,1 ).

После стандартизации вы можете просто сказать, что 68% точек лежат между -1 и +1. и 95% точка находится в диапазоне от -2 до +2.

Оценка плотности ядра:

Используется для преобразования гистограммы в PDF.

Берем все высоты точек на отдельных ядрах и суммируем их — сумма и есть общая высота распределения.



Распределение выборки и центральная предельная теорема:

CLT: средние значения каждой выборки из совокупности равны среднему значению совокупности (μ). Распределениеможет быть любым.

Квантиль-квантильный график (график Q-Q):

Определить случайные выборочные переменные, нормально распределенные или нет. если количество выборок невелико, необходимо интерпретировать график Q-Q.

Как используются дистрибутивы?

Распределение Гаусса дает теоретическую модель распределения данных, которая наблюдается во многих случаях природного явления.

Предположим, мы знаем, что данные распределены нормально X ~ N (µ, σ) со средним значением µ и отклонением σ. Мы можем нарисовать PDF и CDF, используя приведенные выше случайные данные.

PDF и CDF рассказывают нам, как распределяются данные. PDF и CDF рисуют только в случае распределения по Гауссу.

Неравенство Чебышева:

Если я не знаю распределение, среднее = конечное, а стандартное = конечное. Мы не можем рисовать PDF и CDF из-за дистрибутива.

Здесь вы можете найти процент точек, лежащих между заданным диапазоном.

Равномерное распределение:

Он используется для генерации случайного числа, которое имеет множество применений. Высота говорит нам, какова вероятность найти это значение. Функция плотности вероятности (PDF) для непрерывной случайной величины и функция массы вероятности (PMF) для дискретной случайной величины:



ПРИМЕЧАНИЕ. Однородная выборка означает, что каждая точка имеет равные шансы ложности в наборе выборочных данных D’.

Бернулли и биномиальное распределение:





Логнормальное распределение:

если ln(X) нормально распределена. если нет, вы можете проверить, используя график Q-Q.

ПРИМЕЧАНИЕ: если данные представлены в логарифмически нормальном формате, преобразуйте их в гауссово распределение, взяв логарифм. так что вы можете использовать все методы ML.

В большинстве случаев в реальном приложении распределение является логарифмически нормальным. Логнормальный наклон вправо по мере увеличения значения σ. см. пример, приведенный ниже по ссылке.

пример по ссылке ниже.



Распределение по степенному закону:



также известный как правило 80–20. 80% значения времени найдено в интервале 20%.

Распределение Парето:



вы можете найти пример в разделе приложения по ссылке выше.

Коробочное преобразование Кокса:

если набор данных находится в степенном законе/распределении Парето, для преобразования в распределение Гаусса используйте преобразование Бокса-Кокса.

Поместив все значения x в функцию Box cox, вы получите значение лямбда (λ). используйте значение лямбда (λ), вы можете преобразовать каждый x в y.

вы можете напрямую найти значение Y, используя формулу, приведенную в ссылке



В одной строке, используя функцию boxcox (x), всего в одной строке мы можем найти значение y, которое нормально распределено.

Распределение Вейбулла:

Используется для измерения высоты плотины. собирать данные о дожде за недельный интервал.

для определения размера частиц