Статистика: распределение по Гауссу и Z- распределение и T-распределение
Обзор:
В машинном обучении используются различные типы распределений для описания распределения данных в генеральной совокупности или выборке набора данных. В машинном обучении оно используется для визуализации распределения данных и обнаружения выбросов в наборе данных.
Охваченные темы
- Гауссово распределение
- Z-распределение
- T- Распределение
Нормальное распределение, или гауссовское распределение, или колоколообразная кривая:
Обнаруженное Карлом Фридрихом Гауссом, распределение Гаусса, также известное как нормальное распределение, представляет собой кривую в форме колокола, показывающую распределение значений данных для генеральной совокупности. Это используется для проверки отклонения и асимметрии данных.
Гауссовское распределение подчиняется эмпирическому правилу:
1. Это симметричная кривая, где 50 процентов данных лежат слева от среднего, а 50 процентов данных лежат справа от среднего.
2. Где Среднее = Медиана = Режим одинаковы.
3. 68% данных находятся в пределах одного стандартного отклонения.
95% данных находятся в пределах двух стандартных отклонений
99,7% данных находятся в пределах 3 стандартных отклонений
Пример нормального распределения:
- Высоты народа
- Кровяное давление
- Отметки испытания
Стандартное нормальное распределение или Z-распределение:
Нормальное распределение можно преобразовать в Стандартное нормальное распределение с помощью Z-Score (стандартная оценка).
Стандартное нормальное распределение / Z-распределение имеет среднее значение 0 и стандартное отклонение, равное 1
Z-Score показывает, на сколько стандартных отклонений наша точка данных находится от среднего значения. Z-Score уменьшает количество единиц данных.
Т-распределение:
Это также называется Т-распределением Стьюдента. Т-распределение - это любой член семейства непрерывных распределений вероятностей, который возникает при оценке среднего значения нормально распределенной совокупности в ситуации, когда размер выборки невелик (n
Конкретное T-распределение зависит от параметра, известного как степень свободы (DOF).
DOF относится к количеству независимых частей информации, которые используются при вычислении стандартного отклонения выборки (ов).
По мере увеличения глубины резкости разница между Т-распределением и стандартным нормальным распределением становится все меньше и меньше.
Для более 100 степеней свободы стандартное нормальное распределение (Z) дает хорошее приближение к значению T.
Вывод: каждый дистрибутив играет важную роль в машинном обучении. Необходимо понимать эти концепции.
Надеюсь, вам понравится моя статья. Нажмите "Хлопок" 👏 (50 раз), чтобы я мотивировал писать дальше.
Хотите подключиться:
Связано: https://www.linkedin.com/in/anjani-kumar-9b969a39/
Если вам нравятся мои сообщения здесь, на Medium, и вы хотите, чтобы я продолжал эту работу, подумайте о поддержке меня на patreon