Статистика — это сердце любой модели машинного обучения. Поэтому мы должны знать основные статистические термины, чтобы хорошо понимать наши данные и в дальнейшем помогать анализировать и манипулировать данными.

Поэтому естественно возникает вопрос: Что мы можем узнать, глядя на группу чисел?

В машинном обучении (и в математике) нас часто интересуют три значения: Среднее, Медиана и Мода.

Среднее, медиана и мода

Возьмем экземпляр набора данных:

скорость = [99,86,87,88,111,86,103,87,94,78,77,85,86]

Среднее — это среднее значение набора данных. На базовом уровне, чтобы вычислить среднее значение, найдите сумму всех значений и разделите сумму на количество значений в наборе данных. Мы также можем использовать модуль NumPy для вычисления среднего значения. Пример :

импортировать numpy как np

скорость = [99,86,87,88,111,86,103,87,94,78,77,85,86]

х = np.mean (скорость)

печать (х)

Медиана — это среднее значение, найденное в наборе данных после того, как все значения отсортированы в определенном порядке (по возрастанию или по убыванию). Примечание. Если в середине два числа, разделите сумму этих чисел на два, чтобы получить медиану. Мы также можем использовать модуль NumPy для поиска медианы. Пример:

импортировать numpy как np

скорость = [99,86,87,88,86,103,87,94,78,77,85,86]

х = np.медиана (скорость)

печать (х)

Mode — наиболее часто встречающееся значение в нашем наборе данных; или мы можем сказать, что значение режима — это значение, которое появляется наибольшее количество раз. Например: в данном наборе значений-

99, 86, 87, 88, 111, 86, 103, 87, 94, 78, 77, 85, 86 , "86" is our mode as it appears 3 times.

Также мы можем найти режим с помощью модуля SciPy. Пример:

из статистики импорта scipy

скорость = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x = stats.mode (скорость)

печать (х)

Он возвращает значение 86 в качестве режима.

Все ли данные имеют среднее значение, медиану и моду ?

И да и нет. Все непрерывные данные имеют медиану, моду и среднее значение. Однако, строго говоря, порядковые данные имеют только медиану и моду, а номинальные данные имеют только моду. Однако среди статистиков не было достигнуто консенсуса относительно того, можно ли использовать среднее значение с порядковыми данными, и вы часто можете увидеть среднее значение, сообщаемое для данных Лайкерта в исследованиях.

Среднеквадратичное отклонение

Стандартное отклонение – это число, описывающее, насколько разбросаны значения.

Низкое стандартное отклонениеозначает, что большинство чисел близко к среднему (среднему) значению.

Высокое стандартное отклонение означает, что значения разбросаны по более широкому диапазону.

Пример: На этот раз мы зарегистрировали скорость 7 автомобилей:

speed = [86,87,88,86,87,85,86]

Стандартное отклонение: 0.9

Это означает, что большинство значений находятся в диапазоне 0,9 от среднего значения, равного 86,4.

Проделаем то же самое с набором чисел с более широким диапазоном:

speed = [32,111,138,28,59,77,97]

Стандартное отклонение:

37.85

Это означает, что большинство значений находятся в диапазоне 37,85 от среднего значения, равного 77,4.

Как видите, более высокое стандартное отклонение указывает на то, что значения разбросаны по более широкому диапазону.

Дисперсия

Это ожидание квадрата отклонения случайной величины от ее среднего значения. Другими словами, он измеряет, насколько набор (случайных) чисел разбросан от их среднего значения.

Использование: дисперсионный анализ, также называемый дисперсионным анализом или ANOVA, включает оценку разницы между двумя цифрами.

Ковариация

Он обеспечивает меру силы корреляции между двумя или более наборами случайных величин.

Корреляция

Это наиболее известная мера зависимости между двумя величинами — коэффициент корреляции продукта и момента Пирсона, или «коэффициент корреляции Пирсона», обычно называемый просто «коэффициентом корреляции». Его получают путем деления ковариации двух переменных на произведение их стандартных отклонений.