Статистика: распределение по Гауссу и Z- распределение и T-распределение

Обзор:

В машинном обучении используются различные типы распределений для описания распределения данных в генеральной совокупности или выборке набора данных. В машинном обучении оно используется для визуализации распределения данных и обнаружения выбросов в наборе данных.

Охваченные темы

  1. Гауссово распределение
  2. Z-распределение
  3. T- Распределение

Нормальное распределение, или гауссовское распределение, или колоколообразная кривая:

Обнаруженное Карлом Фридрихом Гауссом, распределение Гаусса, также известное как нормальное распределение, представляет собой кривую в форме колокола, показывающую распределение значений данных для генеральной совокупности. Это используется для проверки отклонения и асимметрии данных.

Гауссовское распределение подчиняется эмпирическому правилу:

1. Это симметричная кривая, где 50 процентов данных лежат слева от среднего, а 50 процентов данных лежат справа от среднего.

2. Где Среднее = Медиана = Режим одинаковы.

3. 68% данных находятся в пределах одного стандартного отклонения.

95% данных находятся в пределах двух стандартных отклонений

99,7% данных находятся в пределах 3 стандартных отклонений

Пример нормального распределения:

  1. Высоты народа
  2. Кровяное давление
  3. Отметки испытания

Стандартное нормальное распределение или Z-распределение:

Нормальное распределение можно преобразовать в Стандартное нормальное распределение с помощью Z-Score (стандартная оценка).

Стандартное нормальное распределение / Z-распределение имеет среднее значение 0 и стандартное отклонение, равное 1

Z-Score показывает, на сколько стандартных отклонений наша точка данных находится от среднего значения. Z-Score уменьшает количество единиц данных.

Т-распределение:

Это также называется Т-распределением Стьюдента. Т-распределение - это любой член семейства непрерывных распределений вероятностей, который возникает при оценке среднего значения нормально распределенной совокупности в ситуации, когда размер выборки невелик (n

Конкретное T-распределение зависит от параметра, известного как степень свободы (DOF).

DOF относится к количеству независимых частей информации, которые используются при вычислении стандартного отклонения выборки (ов).

По мере увеличения глубины резкости разница между Т-распределением и стандартным нормальным распределением становится все меньше и меньше.

Для более 100 степеней свободы стандартное нормальное распределение (Z) дает хорошее приближение к значению T.

Вывод: каждый дистрибутив играет важную роль в машинном обучении. Необходимо понимать эти концепции.

Надеюсь, вам понравится моя статья. Нажмите "Хлопок" 👏 (50 раз), чтобы я мотивировал писать дальше.

Хотите подключиться:

Связано: https://www.linkedin.com/in/anjani-kumar-9b969a39/

Если вам нравятся мои сообщения здесь, на Medium, и вы хотите, чтобы я продолжал эту работу, подумайте о поддержке меня на patreon