Типы статистики в науке о данных

Описательная статистика относится к процессу обобщения и представления данных осмысленным образом. Эти статистические меры предоставляют краткую информацию о распределении данных, центральных значениях и отношениях, помогая понять и интерпретировать набор данных.

Описательная статистика:

Иметь в виду
медиана
Режим
Дисперсия
Среднеквадратичное отклонение
Квартили

Выведенный статистика:

Корреляция
асимметрия
эксцесс
процентили

Описательная статистика фокусируется на обобщении и описании основных характеристик и шаблонов данного набора данных. Целью описательной статистики является предоставление всестороннего обзора данных, и в первую очередь она касается описания того, что произошло или что в настоящее время наблюдается в набор данных.

Выводная статистика включает в себя выводы, прогнозы или обобщения о большей совокупности на основе выборки данных. Он использует статистические методы для анализа данных выборки и получения выводов о населении. Цель логической статистики состоит в том, чтобы делать надежные прогнозы или делать значимые выводы о населении за пределами наблюдаемых данных.

Таким образом, описательная статистика фокусируется на обобщении и описании характеристик наблюдаемых данных, в то время как инференциальная статистика направлена на то, чтобы делать выводы или делать прогнозы о большей совокупности на основе наблюдаемых данных.

1 — среднее значение:

Это среднее значение, полученное путем деления суммы всех значений в наборе данных на размер набора данных.

# Sample Dataset
dataset = [10, 15, 20, 25, 30]

# Calculate the mean
mean = sum(dataset) / len(dataset)

# Output the result
print("Mean:", mean) # Mean: 20

2 — Медиана:

Медиана — это мера центральной тенденции, представляющая среднее значение набора данных, когда он расположен в порядке возрастания или убывания. Если набор данных имеет нечетное количество значений, медианой является значение точно посередине. Если набор данных имеет четное количество значений, медиана представляет собой среднее значение двух средних значений.

# Sample Dataset
dataset = [1, 2, 10, 50, 1000]

# Sort the dataset in ascending order
sorted_dataset = sorted(dataset)

# Calculate the median
length = len(sorted_dataset)
mid_index = length // 2  # Integer division to get the middle index

if length % 2 == 1:
    median = sorted_dataset[mid_index]
else:
    median = (sorted_dataset[mid_index - 1] + sorted_dataset[mid_index]) / 2

# Output the result
print("Median:", median) # Median: 10

3 — Режим:

Мода — это статистическая мера, которая представляет наиболее часто встречающиеся значения в наборе данных. Он дает представление о центральной тенденции набора данных, определяя значения, которые появляются с наибольшей частотой.

from scipy import stats

# Sample Dataset
dataset = [1, 2, 5, 5, 5, 40, 50, 50]

# Calculate the mode
mode = stats.mode(dataset,keepdims=True)

# Output the result
print("Mode:", mode.mode[0]) # Mode: 5

4 — Дисперсия:

Дисперсия — это статистическая мера, которая количественно определяет разброс или дисперсию набора данных. Он предоставляет информацию о том, насколько значения в наборе данных отклоняются от среднего значения. Более высокая дисперсия указывает на больший разброс значений, а более низкая дисперсия указывает на более узкий диапазон значений.

a — дисперсия населения: дисперсия населения используется, когда у вас есть данные для всего населения.

σ2 = дисперсия населения
Σ обозначает символ суммирования.
x представляет каждое значение в наборе данных.
μ — среднее значение набора данных.
N — общее количество значений в наборе данных.

import numpy as np

# Sample Dataset
dataset1 = [1, 2, 3, 4, 5]
dataset2 = [10, 15, 20, 25, 30]
dataset3 = [10, 100, 1000, 10000, 100000]

# Calculate the variance
variance1 = np.var(dataset1)
variance2 = np.var(dataset2)
variance3 = np.var(dataset3)

# Output the result
print("Variance 1 :", variance1) # 2
print("Variance 2 :", variance2) # 50
print("Variance 3 :", variance3) # 1526384736

Дисперсия dataset1 равна 2. Это указывает на то, что значения в dataset1 относительно близки к среднему, с небольшим разбросом или отклонением от среднего значения 3.
Дисперсия dataset2 равна 50. Это говорит о том, что значения в dataset2 более разбросаны по сравнению с dataset1. Значения имеют более широкий диапазон отклонений от среднего значения 20.
Дисперсия dataset3 составляет 1 526 384 736. Это указывает на гораздо больший разброс значений dataset3. Значения значительно отклоняются от среднего значения 22,222. Эта высокая дисперсия предполагает широкий диапазон отклонений, подразумевая сильно рассредоточенный набор данных.

b — выборочная дисперсия: выборочная дисперсия используется, когда у вас есть данные для выборки из генеральной совокупности.

s²: этот символ представляет дисперсию выборки, которая является мерой разброса или изменчивости набора данных на основе выборки.
Σ: Этот символ представляет собой обозначение суммирования, указывающее, что вам необходимо суммировать следующие значения.
x: Этот символ представляет отдельное значение в выборке. Он относится к каждой точке данных или наблюдению в выборке.
x̄: этот символ представляет среднее значение выборки, которое является средним значением всех значений в выборке. Он рассчитывается путем суммирования всех значений в выборке и деления на размер выборки (n).
n: этот символ представляет размер выборки, который относится к количеству наблюдений или точек данных в выборке.

import numpy as np

# Sample Dataset
dataset = [19, 21, 20, 22, 23, 20, 21, 22, 20, 21]

# Calculate the variance
Population_variance = np.var(dataset)
Sample_variance = np.var(dataset[3:6],ddof=1)

# Output the result
print("Population Variance :", Population_variance) # 1.289
print("Sample Variance :", Sample_variance) # 2.33

Выборочная дисперсия используется для оценки дисперсии населения. Он использует случайно выбранную часть набора данных для прогнозирования.

5 — Стандартное отклонение:

Стандартное отклонение — это статистическая мера, которая количественно определяет величину дисперсии или изменчивости в наборе данных. Он предоставляет информацию о том, как отдельные значения в наборе данных отклоняются от среднего значения. Стандартное отклонение представляет собой квадратный корень из дисперсии и часто используется для описания разброса точек данных вокруг среднего значения.

a — стандартное отклонение совокупности: стандартное отклонение совокупности количественно определяет дисперсию или распространение данных в пределах всей совокупности, обеспечивая меру внутренней изменчивости, присутствующей в совокупности в целом. Он представляет собой среднюю величину, на которую отдельные точки данных отклоняются от среднего значения генеральной совокупности.

import numpy as np

# Sample Dataset
dataset1 = [1, 2, 3, 4, 5]
dataset2 = [10, 15, 20, 25, 30]
dataset3 = [10, 100, 1000, 10000, 100000]

# Calculate the standard deviation
std_dev1 = np.std(dataset1)
std_dev2 = np.std(dataset2)
std_dev3 = np.std(dataset3)

# Output the result
print("Standard Deviation 1 : ", std_dev1) # Standard Deviation 1 : 1.41
print("Standard Deviation 2 : ", std_dev2) # Standard Deviation 2: 7.07
print("Standard Deviation 3 : ", std_dev3) # Standard Deviation 3: 39068.97

b — стандартное отклонение выборки: стандартное отклонение выборки измеряет дисперсию или разброс данных в выборке, предоставляя оценку изменчивости, присутствующей в генеральной совокупности, на основе подмножества наблюдений.

import numpy as np

# Dataset representing customer purchase amounts (population)
population = [50, 70, 90, 65, 80, 75, 95, 85, 60, 55]

# Random sample (from the population)
sample = [50, 70, 90, 65, 80]

# Population Standard Deviation
population_std = np.std(population)

# Sample Standard Deviation
sample_std = np.std(sample, ddof=1)

print("Population Standard Deviation:", population_std) # 14.36
print("Sample Standard Deviation:", sample_std) # 15.1

6 — Квартили:

Квартили делят набор данных на четыре равные части, представляющие значения, которые разбивают данные на четверти. Первый квартиль (Q1) представляет 25-й процентиль, второй квартиль (Q2) представляет собой медиану (50-й процентиль), а третий квартиль (Q3) представляет 75-й процентиль. Квартили предоставляют информацию о разбросе и распределении данных.

Примером использования квартилей является анализ распределения доходов.

N : количество элементов в наборе данных (поскольку в наборе данных 10 наблюдений)
Q1: Первый квартиль (25-й процентиль)
Q2: второй квартиль (медиана, 50-й процентиль)
Q3: Третий квартиль (75-й процентиль)
Межквартильный диапазон (IQR) = Q3 — Q1

import numpy as np

# Example dataset
income_data = [25000, 35000, 40000, 45000, 50000, 55000, 60000, 65000, 70000, 80000]

# Calculate quartiles
q1 = np.percentile(income_data, 25)
q2 = np.percentile(income_data, 50)
q3 = np.percentile(income_data, 75)
iqr = q3 - q1

# Output the result
print("Q1:", q1) # 41250
print("Q2:", q2) # 52500
print("Q3:", q3) # 63750
print("IQR:", iqr) # 22500

7 — Корреляция:

Корреляция — это статистическая мера, которая количественно определяет взаимосвязь или ассоциацию между двумя переменными. Он показывает, насколько сильно переменные связаны друг с другом и в каком направлении (положительно или отрицательно).

Примером сценария из реальной жизни, где можно применить корреляцию, является изучение взаимосвязи между часами обучения и экзаменационными баллами.

X и Y представляют собой две анализируемые переменные (например, количество учебных часов и экзаменационные баллы).
Xi и Yi являются отдельными точками данных X и Y соответственно.
X̄ и Ȳ обозначают средние значения X и Y соответственно.
Символ суммирования (∑) представляет собой суммирование по всем точкам данных.

import numpy as np

study_hours = [2, 4, 6, 8, 10]
exam_scores = [60, 70, 80, 90, 100]

correlation = np.corrcoef(study_hours, exam_scores)[0, 1]

print("Correlation coefficient:", correlation) # 1

Коэффициент корреляции находится в диапазоне от -1 до 1. Значение 1 указывает на полную положительную корреляцию, -1 указывает на полную отрицательную корреляцию, а 0 указывает на отсутствие корреляции. В нашем примере значение коэффициента корреляции даст представление о взаимосвязи между часами обучения и экзаменационными баллами, указав, имеют ли они положительную корреляцию, отрицательную корреляцию или вообще не коррелируют.

8 — Асимметрия:

Асимметрия — это мера асимметрии или «асимметрии» распределения вероятностей. Он количественно определяет отклонение распределения от симметричной колоколообразной кривой. Асимметрия указывает, смещены ли данные влево (отрицательная асимметрия), смещены вправо (положительная асимметрия) или распределены симметрично (нулевая асимметрия).

Примером из реальной жизни, где можно применить асимметрию, является анализ распределения цен на жилье.

import numpy as np

housing_prices = [100, 150, 200, 250, 300, 350]

skewness = (3 * (np.mean(housing_prices) - np.median(housing_prices))) / np.std(housing_prices)

print("Skewness:", skewness)  # 0  Zero Skewness

Таким образом, асимметрия измеряет асимметрию распределения. Правая асимметрия указывает на концентрацию данных в сторону более низких значений с несколькими более высокими выбросами, левая асимметрия указывает на концентрацию в сторону более высоких значений с несколькими более низкими выбросами, а нулевая асимметрия указывает на симметричное распределение без значительных дисбалансов хвостов.

9— Эксцесс:

Эксцесс — это статистическая мера, описывающая форму и остроту распределения вероятностей. Он количественно определяет степень отклонения распределения от нормального распределения с точки зрения наличия тяжелых хвостов или выбросов.

Примером использования эксцесса является анализ финансовых данных, таких как доходность акций. Эксцесс может помочь определить, имеет ли распределение доходности толстые хвосты, указывая на наличие экстремальных значений или выбросов, которые могут повлиять на инвестиционные решения.

n представляет длину набора данных.
x представляет каждую отдельную точку данных.
x̄ — среднее значение набора данных.
s — стандартное отклонение набора данных.

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm, kurtosis

# Generate a sample from a normal distribution
sample = np.random.normal(loc=0, scale=1, size=1000)

# Calculate kurtosis
kurt = kurtosis(sample)

print("Kurtosis:", kurt) # 0.3345

# Plot the probability density function (PDF) of the distribution
x = np.linspace(-4, 4, 100)
plt.plot(x, norm.pdf(x, 0, 1))
plt.title("Normal Distribution")
plt.xlabel("X")
plt.ylabel("Probability Density")
plt.show()

Значение эксцесса 0,3345 предполагает распределение с более плоским пиком и более светлыми хвостами по сравнению с нормальным распределением. Это указывает на меньшее количество экстремальных значений или выбросов в распределении. Значение близко к эксцессу нормального распределения, равному 0. Положительные значения эксцесса указывают на более тяжелые хвосты и более острый пик, а отрицательные значения указывают на более легкие хвосты и более плоский пик. В этом случае положительное значение предполагает несколько более остроконечное распределение, но отличие от нормального распределения несущественно.

10 — Процентили:

Процентили представляют собой определенные точки в наборе данных, которые делят данные на 100 равных частей. Другими словами, они делят данные на сотые доли. Процентиль указывает процент значений в наборе данных, которые равны или ниже определенного значения.

Пример из реальной жизни: предположим, у нас есть набор данных, представляющий годовой доход отдельных лиц в определенной группе населения. Нам интересно понять распределение доходов и, в частности, доход 90-го процентиля.

"r" представляет желаемый процентильный ранг или определенный процентиль, который мы хотим рассчитать.
"P" представляет значение процентиля, которое мы хотим найти. В примере мы использовали 90-й процентиль, поэтому P будет равно 90.
N представляет собой общее количество точек данных или наблюдений в наборе данных.

это означает, что 90% значений дохода в наборе данных ниже или равны 63 056 долларов США. Это указывает на то, что 63 056 долларов США представляют собой относительно высокий уровень дохода по сравнению с остальной частью набора данных. График визуализирует распределение доходов, показывая плотность доходов и отмечая положение 90-го процентиля дохода пунктирной линией.

Обзор:

Среднее значение: среднее значение набора чисел.
Медиана: среднее значение отсортированного набора чисел или среднее значение двух средних значений, если набор имеет четное количество значений.
Режим: наиболее часто встречающееся значение в наборе чисел.
Дисперсия: мера того, насколько разбросаны числа в наборе данных от среднего.
Стандартное отклонение: квадратный корень из дисперсии, представляющий среднюю величину, на которую точки данных отклоняются от среднего значения.
Квартили: значения, которые делят набор данных на четыре равные части, а именно нижний квартиль (25-й процентиль), медиана (50-й процентиль) и верхний квартиль (75-й процентиль).
Корреляция: статистическая мера, описывающая взаимосвязь между двумя переменными, указывающая силу и направление их связи.
Асимметрия: Мера асимметрии распределения, указывающая, является ли оно асимметрией влево (отрицательная асимметрия), вправо (положительная асимметрия) или симметрично (нулевая асимметрия).
Эксцесс: мера формы распределения, описывающая тяжесть его хвостов и остроконечность его центра.
Процентили: значения, которые делят набор данных на 100 равных частей, предоставляя информацию об относительном положении определенного значения в наборе данных.