Привет, ребята, в сегодняшнем блоге я поделюсь некоторыми основными понятиями статистики, которые необходимы при работе со статистическими данными в науке о данных.
Предполагая, что вы имеете дело с числовыми данными и хотите знать статистику (сумма, среднее значение, медиана и т. д.), вам не нужно вручную использовать математические формулы для расчета результатов. У нас есть предопределенная реализация, которую можно использовать для понимания структуры данных, чтобы вы могли больше сосредоточиться на точной настройке функций, а не на расчете некоторых основных формул.
Существуют две основные категории статистики, основанные на характере данных:
- Описательная статистика
- Выведенный статистика
В сегодняшнем блоге мы сосредоточимся на описательной статистике, этот метод предоставляет базовые и расширенные математические параметры (формула) для поиска описания или характера определенного набора данных.
Давайте возьмем пример следующего набора данных, чтобы найти некоторые основные математические показатели, которые я упомянул в первом абзаце.
Наиболее часто используемая статистика в машинном обучении:
- Мера центральной тенденции (также известная как Мера центрального расположения)
- Мера изменчивости
- Квартиль и межквартильный диапазон
- Нормальное распределение
- тест хи-квадрат
Показатель центральной тенденции:
Мерой центральной тенденции является одно значение, которое пытается описать набор данных, определяя центральное положение в этом наборе данных. Таким образом, меры центральной тенденции иногда называют мерами центрального расположения. Они также классифицируются как сводные статистические данные.
С помощью этих мер мы можем определить, насколько хорошо данные распределены среди данного набора данных.
Существует три основных показателя центральной тенденции: мода, медиана и среднее значение. Каждая из этих мер описывает разные признаки типичного или центрального значения в распределении.
я. Среднее :
Он дает среднее значение всех числовых значений из набора данных.
# creating a new list sample_list = [4, 3, 5, 7, 2, 6, 12, 67] print("Mean of the above list is {}".format(sum(sample_list) / len(sample_list)))
Приведенный выше код вычисляет среднее значение списка, и результат будет
ii. Медиана:
Медиана дает вам центрированное значение данного списка, это похоже на Среднее (но не то же самое)
Преимущества :
На медиану меньше влияют выбросы и искаженные данные.
III. Режим:
Режим дает вам наиболее распространенную точку данных, доступную в данном списке.
from statistics import mode print("Mode of the above list is ",mode([1, 1, 2, 3, 3, 3, 3, 4]))
Результат:
Если несколько целых чисел найдены как наиболее часто встречающиеся, возвращается первое их появление.
Мы обсудим остальные темы в следующих блогах, спасибо за поддержку.