Статистика для машинного обучения

Привет, ребята, в сегодняшнем блоге я поделюсь некоторыми основными понятиями статистики, которые необходимы при работе со статистическими данными в науке о данных.

Предполагая, что вы имеете дело с числовыми данными и хотите знать статистику (сумма, среднее значение, медиана и т. д.), вам не нужно вручную использовать математические формулы для расчета результатов. У нас есть предопределенная реализация, которую можно использовать для понимания структуры данных, чтобы вы могли больше сосредоточиться на точной настройке функций, а не на расчете некоторых основных формул.

Существуют две основные категории статистики, основанные на характере данных:

Описательная статистика
Выведенный статистика

В сегодняшнем блоге мы сосредоточимся на описательной статистике, этот метод предоставляет базовые и расширенные математические параметры (формула) для поиска описания или характера определенного набора данных.

Давайте возьмем пример следующего набора данных, чтобы найти некоторые основные математические показатели, которые я упомянул в первом абзаце.

Наиболее часто используемая статистика в машинном обучении:

Мера центральной тенденции (также известная как Мера центрального расположения)
Мера изменчивости
Квартиль и межквартильный диапазон
Нормальное распределение
тест хи-квадрат

Показатель центральной тенденции:

Мерой центральной тенденции является одно значение, которое пытается описать набор данных, определяя центральное положение в этом наборе данных. Таким образом, меры центральной тенденции иногда называют мерами центрального расположения. Они также классифицируются как сводные статистические данные.

С помощью этих мер мы можем определить, насколько хорошо данные распределены среди данного набора данных.

Существует три основных показателя центральной тенденции: мода, медиана и среднее значение. Каждая из этих мер описывает разные признаки типичного или центрального значения в распределении.

я. Среднее :

Он дает среднее значение всех числовых значений из набора данных.

# creating a new list

sample_list = [4, 3, 5, 7, 2, 6, 12, 67]
print("Mean of the above list is {}".format(sum(sample_list) / len(sample_list)))

Приведенный выше код вычисляет среднее значение списка, и результат будет

ii. Медиана:

Медиана дает вам центрированное значение данного списка, это похоже на Среднее (но не то же самое)

Преимущества :

На медиану меньше влияют выбросы и искаженные данные.

III. Режим:

Режим дает вам наиболее распространенную точку данных, доступную в данном списке.

from statistics import mode
print("Mode of the above list is ",mode([1, 1, 2, 3, 3, 3, 3, 4]))

Результат:

Если несколько целых чисел найдены как наиболее часто встречающиеся, возвращается первое их появление.

Мы обсудим остальные темы в следующих блогах, спасибо за поддержку.

Статистика для машинного обучения

Наиболее часто используемая статистика в машинном обучении:

Вопросы по теме