До сих пор мы рассмотрели функции описательной статистики и распределения вероятностей, а также важные компоненты, связанные с ними.

Но вот вопрос, как именно мы сможем использовать знания о распределении вероятностей в науке о данных?
Ответ может быть лучшей суммой в двух словах: Выбор функций.

Мы можем понять это, проиллюстрировав один пример:

Давайте разберемся с этим, используя набор данных IRIS, импортированный из библиотеки Seaborn.

В наборе данных Iris у нас есть четыре числовых столбца в качестве входных данных: длина лепестка, ширина лепестка, длина сепала и ширина сепала, и мы должны определить вид, который является категориальным столбцом.

Но для того, чтобы сделать это с большей эффективностью и большей точностью, мы должны выполнить выбор признаков в столбцах, то есть выбрать лучшие столбцы из 4 для выполнения точного прогноза.

Во-первых, мы можем построить распределение вероятностей для всех входных столбцов по порядку для всех видов, используя kdeplot из библиотеки Seaborn.

import seaborn as sns
df = sns.load_dataset('iris')
sns.kdeplot(data=df,x='sepal_length',hue='species')
sns.kdeplot(data=df,x='sepal_width',hue='species')
sns.kdeplot(data=df,x='petal_length',hue='species')
sns.kdeplot(data=df,x='petal_width',hue='species')

Согласно нашему наблюдению, мы можем сказать, что длина лепестка может быть хорошей функцией для прогнозирования выхода, поскольку мы можем ясно видеть, что цветы с длиной лепестка менее 2,2 классифицируются как сетоза. Цветы, длина лепестков которых находится между 2,2 и 5, имеют более высокую вероятность быть разноцветными. А цветы, длина лепестков которых больше 5, имеют большую вероятность быть виргинскими.

В этом случае можно сказать, что цветы, у которых ширина лепестков меньше 0,5, классифицируются как Setosa. Цветки, ширина лепестков которых находится между 0,5 и 1,7, с большей вероятностью будут классифицированы как Versicolor, а цветы, ширина лепестков которых превышает 1,7, могут быть классифицированы как Virginica.

Эти два столбца из набора данных,petal_width иpetal_length, могут сильно отличаться от своих предшественников при прогнозировании результата.

Как в таких случаях помогает кумулятивная функция распределения?

CDF можно использовать для определения на определенном уровне того, какая категория имеет более высокие шансы быть вероятной по отношению к другой категории.

Например, при ширине лепестка 1,7, если мы проведем горизонтальную линию от CDF Versicolor и Virginica к оси Y, мы увидим, что плотность вероятности Versicolor достигает точки 0,95, тогда как для Virginica она равна 0,1.
Это означает, что Versicolor имеет 95% вероятность появления ниже 1,7 ширины лепестка, тогда как Virginica имеет только 10% вероятность появления ниже 1,7.

2D-график плотности

Существуют определенные ситуации, в которых мы хотим сравнить два числовых столбца друг с другом и построить их распределения вероятностей, чтобы мы могли определить, в каких точках обоих столбцов плотность вероятности может быть самой высокой.

Давайте построим контурную диаграмму в Python, а также обсудим, как ее вывести.

 sns.jointplot(data=df, x="petal_length", y="sepal_length", kind="kde",fill=True,cbar=True)

Здесь мы видим, что конкретное распределение обоих столбцов также нанесено на соответствующие оси на противоположной стороне, а двумерное распределение вероятностей нанесено посередине.

Мы можем представить 2D-распределение как гору, где более темная часть графического представления представляет собой вершину горы, а выступающая часть пытается выйти за пределы экрана, если мы визуализируем ее в 3D. Это означает, что выступающая часть имеет более высокую плотность вероятности по сравнению с остальной частью области.

Нормальное распределение

Нормальное распределение, также известное как распределение Гаусса, представляет собой распределение вероятностей, которое описывает, как непрерывная переменная распределяется в совокупности. Это колоколообразная кривая, симметричная относительно среднего значения, при этом большинство точек данных сгруппировано вокруг центра и меньше точек на хвостах.

Нормальное распределение характеризуется двумя параметрами: средним значением (μ) и стандартным отклонением (σ). Среднее значение определяет центр распределения, а стандартное отклонение определяет разброс данных вокруг среднего значения.

Еще несколько фактов об этом распределении: оно носит асимптотический характер, что означает, что хвосты никогда не заканчиваются и не исчезают в крайних точках, а простираются далеко до бесконечности.

Кроме того, есть много точек вблизи среднего и очень мало далеко.

Почему нормальное распределение так важно?

Нормальное распределение важно по нескольким причинам:

  1. Многие явления реального мира можно смоделировать с помощью нормального распределения: Нормальное распределение представляет собой колоколообразную кривую, симметричную относительно своего среднего значения. Многие природные явления, такие как рост, вес, коэффициент интеллекта и многие другие, имеют нормальное распределение. Кроме того, нормальное распределение можно использовать для моделирования ошибок в измерениях или экспериментальных результатах.
  2. Стандартное отклонение. Нормальное распределение важно, поскольку оно обеспечивает удобный способ расчета вероятности того, что значение попадет в определенный диапазон. Это возможно, потому что нормальное распределение определяется его средним значением и стандартным отклонением, которые позволяют нам рассчитать вероятность попадания случайной величины в определенный диапазон.

В целом, нормальное распределение является важным инструментом в статистике и анализе данных, и его свойства широко применяются в различных областях.

Уравнение PDF нормального распределения

Стандартный Нормальный Переменный

Стандартная нормальная переменная (Z) — это стандартизированная форма нормального распределения со средним значением = 0 и стандартным отклонением = 1.

Чтобы получить стандартную нормальную переменную из нормально распределенной случайной величины со средним значением µ и стандартным отклонением σ, мы можем использовать следующую формулу:

Z = (X — µ) / σ

где X — исходная случайная величина, а Z — преобразованная переменная со стандартным нормальным распределением. Это преобразование известно как стандартизация.

Как стандартная нормальная переменная может быть полезна в практическом случае?

Предположим, что рост взрослых мужчин в определенной популяции подчиняется нормальному распределению со средним значением 68 дюймов и стандартным отклонением 3 дюйма. Какова вероятность того, что случайно выбранный взрослый мужчина из этой популяции будет выше 72 дюймов?

Мы оценим Z-показатель, используя метод преобразования стандартных нормальных переменных, а затем обратимся к Z-таблице для дальнейшего расчета вероятности наличия взрослого населения выше 72 дюймов.

Во-первых, мы построим нормальное распределение со средним = 68 и стандартным отклонением равным 3.

Сначала мы вычисляем Z-показатель
Z = 72–68/3 = 4/3 = 1,33.

Это означает, что 72 представляет 1,33 по оси X при измерении в соответствии со стандартной нормальной переменной, а согласно таблице Z площадь 0,908 соответствует 1,33 точки, что означает, что существует вероятность 90,8 %, что высоты попадут в эту область до 1,33. , но нам нужно было рассчитать вероятность получения роста выше 72, что согласно стандартной нормальной переменной равно 1,33, поэтому мы можем вычесть 0,908 из 1, что в результате дает 0,092, что означает, что существует 9,2% вероятность того, что рост взрослого мужчины будет выше 72 дюймов.

Эмпирическое правило

В общем, для любого нормального распределения эмпирическое правило, также известное как правило 68–95–99,7, утверждает, что приблизительно:

  • 68% данных находятся в пределах одного стандартного отклонения от среднего
  • 95% данных находятся в пределах двух стандартных отклонений от среднего
  • 99,7% данных находятся в пределах трех стандартных отклонений от среднего

Следовательно, если мы предположим, что данные о загрязнении следуют нормальному распределению, мы можем оценить, что:

  • Между одним и двумя стандартными отклонениями от среднего лежит примерно 68% — 95% = 27% данных.
  • Между двумя и тремя стандартными отклонениями от среднего лежит примерно 95% — 99,7% = 4,3% данных.

Опять же, важно отметить, что это всего лишь оценка, и фактический процент данных о загрязнении в этих диапазонах будет зависеть от конкретного среднего значения и стандартного отклонения данных.

асимметрия

Нормальное распределение — это симметричное распределение в форме колокола с определенной математической формулой, описывающей распределение данных. Асимметрия указывает на то, что данные несимметричны, что означает, что они не распределены нормально.

Асимметрия — это мера асимметрии распределения вероятностей. Это статистическая мера, описывающая степень отклонения набора данных от нормального распределения.

В симметричном распределении среднее значение, медиана и мода равны. Напротив, в асимметричном распределении среднее значение, медиана и мода не равны, и распределение имеет тенденцию иметь более длинный хвост с одной стороны, чем с другой.

Асимметрия может быть положительной, отрицательной или нулевой. Положительная асимметрия означает, что хвост распределения длиннее с правой стороны, а отрицательная асимметрия означает, что хвост длиннее с левой стороны. Нулевая асимметрия указывает на идеально симметричное распределение.

Выбросы обычно лежат в хвостовой области асимметричного распределения.

Мы можем рассчитать асимметрию, используя функцию Python, известную как .skew().

CDF нормального распределения

Кумулятивная функция распределения (CDF) нормального распределения, также известная как распределение Гаусса, представляет собой математическую функцию, которая дает вероятность того, что случайная величина X меньше или равна определенному значению x.

CDF нормального распределения можно использовать для расчета вероятности того, что случайная величина попадает в определенный диапазон значений.

Мы можем рассчитать плотность вероятности между двумя конкретными значениями, интегрируя площадь и сохраняя пределы как те же два значения, и, следовательно, мы можем получить вероятность значений, попадающих между одними и теми же двумя точками.

Варианты использования нормального распределения в науке о данных

Вот некоторые из вариантов использования нормального распределения в науке о данных:

  1. Статистический вывод: нормальное распределение играет центральную роль в статистическом выводе, который представляет собой процесс получения выводов о совокупности на основе выборки данных. Многие статистические тесты, такие как t-критерий и F-критерий, предполагают, что данные распределены нормально.
  2. Проверка гипотез: нормальное распределение используется при проверке гипотез, то есть в процессе проверки гипотезы о популяции на основе выборки данных. При проверке гипотез нормальное распределение используется для расчета p-значений и доверительных интервалов.
  3. Машинное обучение. Многие алгоритмы машинного обучения предполагают, что данные распределены нормально. Например, линейная регрессия и логистическая регрессия предполагают, что остатки (разница между прогнозируемыми значениями и фактическими значениями) нормально распределены.

Таким образом, нормальное распределение является фундаментальной концепцией в науке о данных и используется в широком диапазоне приложений, от статистического вывода до финансов и биостатистики.