Описательная статистика в науке о данных

Описательная статистика — это не что иное, как описание набора данных. Описательная статистика в науке о данных используется для создания сводки большого набора данных. Он используется для определения нормального распределения данных. Он отображается в виде диаграмм, графиков, таблиц, частотного распределения и т. д.

Описательная статистика содержит следующую информацию о наборе данных:

Мера центральной тенденции.
Мера рассеивания.

Мера центральной тенденции:

Чтобы узнать о мере центральной тенденции, перейдите по следующей ссылке:

https://link.medium.com/Q5iLIofRU5

2. Мера рассеивания:

Измерения центральной тенденции недостаточно для четкого описания данных, поскольку возможно, что два признака могут иметь одинаковое среднее значение, медиану и моду . Поэтому необходимо знать Меру рассеивания. Он описывает, как данные изменяются .

Далее я попытался дать краткое описание различных мер дисперсии:

Диапазон
Среднее абсолютное отклонение (MAD)
Дисперсия
Среднеквадратичное отклонение
Коэффициент дисперсии
Коэффициент асимметрии

ДИАПАЗОН:

Диапазон дает информацию о том, насколько разбросаны данные.

Чтобы рассчитать диапазон очень просто, используйте следующую формулу:

Максимальное значение - Минимальное значение

Среднее абсолютное отклонение (MAD):

Среднее абсолютное отклонение — это среднее расстояние между каждым значением данных и средним значением.

Для расчета MAD используйте следующую формулу:

ДИСПЕРСИЯ:

Это дает нам понимание того, насколько данные далеки от среднего.

Высокая дисперсия означает, что точки данных сильно разбросаны от среднего значения и друг от друга. Низкая дисперсия означает, что точки данных близки друг к другу и к среднему значению.

Для расчета среднего используйте следующую формулу:

СРЕДНЕКВАДРАТИЧНОЕ ОТКЛОНЕНИЕ:

Стандартное отклонение — это не что иное, как квадратный корень из дисперсии.

Он используется для количественной оценки степени дисперсии набора значений данных от среднего (среднего) значения.

Низкое стандартное отклонение означает, что большинство значений данных близки к среднему, тогда как высокое стандартное отклонение означает, что значения данных далеки от среднего.

Чтобы рассчитать стандартное отклонение, сначала рассчитайте дисперсию, а затем найдите из нее квадратный корень.

Коэффициент вариации :

Это отношение стандартного отклонения к среднему.

Коэффициент вариации дает результат в процентах.

Чем выше коэффициент вариации, тем больше уровень дисперсии вокруг среднего значения.

Более низкий коэффициент вариации указывает на более точную оценку.

Он используется для сравнения двух наборов данных.

Коэффициент асимметрии:

Он используется для измерения асимметрии распределения.

Он определяет, распределены ли данные нормально или смещены влево или вправо.

Его можно рассчитать либо с помощью моды, либо с помощью медианы.

Использование режима:

Используя медиану:

Вы могли заметить, что прежде всего метод используется для вычисления одного и того же результата, но их результаты представлены в разных единицах измерения.

Описательная статистика в науке о данных

Вопросы по теме