Основные понятия статистики, которые должен знать каждый специалист по данным.

Со статистикой легко лгать, без статистики трудно говорить правду.

Эй, ты планируешь изучать науку о данных? Затем давайте рассмотрим некоторые основные статистические концепции.

В этой серии я пытаюсь охватить все концепции статистики, необходимые для науки о данных.

Часть 1

Статистика – это наука о сборе, организации и анализе данных.

Мы можем классифицировать статистику на два типа: описательную и выводную.

Описательная статистика. Организация и обобщение данных. PDF, гистограмма и столбчатые диаграммы являются примерами описательной статистики.
Выводная статистика. Используется для выводов на основе данных. Мы используем проверку гипотез, Z-тест и Т-тест для выводной статистики.

Данные – это факт или часть информации.

Существует два термина для данных: данные генеральной совокупности (N) и данные выборки (n). данные генеральной совокупности — это вся группа данных, используемых для заключения. А данные выборки — это особая группа данных из данных о населении.

Мы можем получить эти образцы, используя различные методы выборки. Ниже приведены некоторые методы выборки, которые мы можем использовать для выборки наших данных о населении.

Простая случайная выборка. Каждый член совокупности (N) имеет равные шансы попасть в вашу выборку (n).
Стратифицированная выборка. Данные о совокупности (N) подразделяются на непересекающиеся подгруппы (n). например, пол можно разделить на мужской и женский, т. е. непересекающиеся выборочные данные.
Систематическая выборка: систематический выбор данных выборки из данных о населении. Каждое n-е лицо выбирается для выборки данных.

Переменная — этохарактеристика, которая может принимать любое значение, поддающееся измерению.

Переменная может быть классифицирована как числовая переменная и категориальная переменная.

Числовая переменная — это количественная характеристика, значение которой можно измерить. например, возраст, звание и т. д.
Категорическая переменная – это качественная переменная, в которой нет внутренней упорядоченности категорий.

Частотное распределение – это обзор всех значений некоторой переменной и количества ее повторений.

Он может быть представлен гистограммой, гистограммой, функцией плотности вероятности (PDF) и т. д.

Гистограмма: используется для представления распределения данных. Это способ визуализации количества вхождений различных значений в наборе данных. На гистограмме ось X представляет различные значения или категории в наборе данных, а ось Y представляет частоту или количество этих значений. Этот тип графика полезен для быстрого понимания распределения набора данных и выявления закономерностей или выбросов.

2. Гистограмма. Гистограмма — это тип графика, используемый для представления распределения набора данных. Он похож на гистограмму тем, что отображает количество вхождений различных значений в наборе данных, но обычно используется для представления непрерывных, а не дискретных данных. Однако, в отличие от гистограммы, ось X разделена на ряд интервалов или диапазонов, а высота каждого столбца представляет количество точек данных, попадающих в этот интервал. Это позволяет гистограмме отображать распределение непрерывных данных, таких как измерения или возраст, группируя их в диапазоны. Общая форма гистограммы может дать представление об основном распределении данных, например, является ли она симметричной или асимметричной.

3. Функция плотности вероятности (PDF): это функция, которая описывает вероятность того, что случайная величина примет заданное значение. Это гладкая кривая, которая описывает вероятность наблюдения значения в небольшом диапазоне, а не вероятность наблюдения определенного значения.

Показатель центральной тенденции используется для описания центра набора данных или типичного значения и может использоваться для понимания и обобщения данных.

Существует несколько мер центральной тенденции, включая среднее значение, медиану и моду.

Среднее значение. Среднее значение, т. е. сумма всех значений в наборе данных, деленная на общее количество значений в наборе данных, называется средним значением данных.

import statistics as st
data =[1,40,5,4,3]
mean = st.mean(data)
print("mean of given data is:",mean)

Вывод приведенного выше кода:

mean of the given data is: 10.6

2. Медиана: среднее значение отсортированного набора данных называется медианным значением набора данных.

import statistics as st
data =[1,40,5,4,3]
median = st.median(data)
print("median of the given data is:",median)

Вывод приведенного выше кода:

median of the given data is: 4

3. Режим:наиболее часто встречающийся элемент в наборе данных.

import statistics as st
data =[1,40,40,5,4,3]
mode = st.mode(data)
print("mode of the given data is:",mode)

Вывод приведенного выше кода:

mode of the given data is: 40

Показатель дисперсии — это статистическое значение, которое описывает, насколько разбросан набор данных.

Существует несколько типов мер дисперсии, в том числе Range, Variance. Эта мера дисперсии используется для описания того, насколько схожи или различны значения в наборе данных, и они могут быть полезны для понимания и обобщения данных.

Диапазон.Диапазон — это разница между самым большим и самым маленьким наблюдениями в данных.

Диапазон = Максимальное значение в данных — Минимальное значение в данных

import statistics as st
data =[1,40,40,5,4,3]
Range = max(data) - min(data)
print("The Range of the given data is:",Range)

Вывод приведенного выше кода:

The range of the given data is: 39

2. Дисперсия. Дисперсия — это числовое значение, обозначающее отклонение ваших данных от среднего арифметического значения.

import statistics as st
data =[1,40,40,5,4,3]
Variance = st.variance(data)
print("A Variance of the given data is:",Variance

Вывод приведенного выше кода:

A variance of the given data is: 361.9

3. Стандартное отклонение. Стандартное отклонение — это числовое значение, которое показывает отклонение данных от среднего значения, т. е. насколько ваша точка данных отклоняется от среднего значения.

import statistics as st
data =[1,40,40,5,4,3]
Standard_deviation = st.stdev(data)
print("Stanard deviation of the given data is:",Standard_deviation)

Вывод приведенного выше кода:

The standard deviation of the given data is: 19.023669467271553

В этом блоге я рассмотрел самые основные концепции статистики. Я планирую осветить все концепции статистики, необходимые для науки о данных, в своих следующих блогах.

Если вы нашли эту статью полезной, подписывайтесь на меня в Linkedin и medium. Вы также можете подписаться, чтобы получать уведомления, когда я публикую статьи.

Следите за обновлениями !!!

Спасибо !!!

Основные понятия статистики, которые должен знать каждый специалист по данным.

Со статистикой легко лгать, без статистики трудно говорить правду.

Часть 1

Вопросы по теме