Вы когда-нибудь задумывались, почему так важно нормальное распределение?

Объяснение причин, почему распределение Гаусса является настолько успешным и широко используемым распределением вероятностей

Что такого особенного в нормальном распределении вероятностей? Почему так много статей по науке о данных и машинному обучению вращаются вокруг нормального распределения вероятностей?

Мир машинного обучения и науки о данных вращается вокруг концепций распределения вероятностей, а ядро концепции распределения вероятностей сосредоточено на нормальных распределениях. В этой статье показано, что такое нормальное распределение и почему оно широко используется, особенно специалистами по данным и специалистам по машинному обучению.

Я решил написать статью, в которой попытается объяснить концепцию нормального распределения вероятностей в простой для понимания манере.

Я объясню все с самого начала, чтобы читатели поняли важность нормального распределения.

Структура статьи

Эта статья объяснит:

Что такое вероятностное распределение?
Что значит нормальное распределение?
Какие переменные имеют нормальное распределение?
Как проверить распределение вашего набора данных в Python?
Как заставить переменную нормально распределяться в Python?
Проблемы с нормальностью

Сначала немного предыстории

Во-первых, наиболее важным моментом, на который следует обратить внимание, является то, что нормальное распределение также известно как распределение Гаусса.
Во-вторых, он назван в честь гения Карла Фридриха Гаусса.

Нормальное распределение также известно как распределение Гаусса.

Наконец, важно отметить, что простые прогностические модели обычно являются наиболее используемыми моделями. Это связано с тем, что они могут быть объяснены и понятны. Теперь, чтобы добавить к этому моменту; Нормальное распределение - это просто, и поэтому его простота делает его чрезвычайно популярным.

Следовательно, стоит понять, что такое нормальное распределение вероятностей.

Но во-первых, что означает распределение вероятностей?

Позвольте мне объяснить, сначала построив соответствующие строительные блоки.

Если мы хотим точно предсказать переменную, то первая задача, которую нам нужно выполнить, - это понять базовое поведение нашей целевой переменной.
Что нам нужно сделать в первую очередь, так это определить возможные результаты целевой переменной и будут ли лежащие в основе результаты дискретными (различные значения) или непрерывными (бесконечные значения). Для простоты, если мы оцениваем поведение игральных костей, то первым делом следует учесть, что они могут принимать любое значение от 1 до 6 (дискретное).
Следующим шагом будет присвоение вероятностей событиям (значениям). Следовательно, если значение не может появиться, ему присваивается вероятность 0%. Если событие происходит всегда, то вероятность составляет 100%. Если сложить все вероятности, получится 100%.

Чем выше вероятность, тем больше вероятность того, что событие произойдет.

Например, мы можем начать повторять эксперимент большое количество раз и начать отмечать значения, которые мы получаем для переменной.
Теперь мы можем сгруппировать значения по категориям / сегментам. И для каждого сегмента мы можем начать записывать, сколько раз переменная имела значение сегмента. Например, мы можем бросить кубик 10000 раз и создать 6 ведер, поскольку есть 6 возможных значений, которые может принимать игра в кости. После каждого броска мы можем записывать количество вхождений для каждого значения.
Затем мы можем построить линейную диаграмму, где значения x будут значениями корзины, а значения оси Y будут представлять возникновение значения корзины. Мы заметим, что он имеет форму кривой. Эта кривая известна как кривая распределения вероятностей, а вероятность того, что целевая переменная получит значение, является распределением вероятностей переменной.
Как только мы поймем, как распределяются значения, мы можем начать оценивать вероятности событий, даже используя формулы (известные как функции распределения вероятностей). Как следствие, мы можем лучше понять поведение наших целевых переменных. Распределение вероятности зависит от моментов выборки, таких как среднее значение, стандартное отклонение, асимметрия и / или эксцесс.

Существует большое количество распределений вероятностей, и наиболее широко используемое распределение вероятностей известно как «нормальное распределение». Давайте теперь разберемся с нормальным распределением.

А теперь перейдем к нормальному распределению вероятностей

Если мы построим распределение вероятностей, и оно образует колоколообразную кривую, а среднее значение, мода и медиана выборки равны, тогда переменная имеет нормальное распределение.

Это пример колоколообразной кривой нормального распределения:

Важно понимать и оценивать распределение вероятностей вашей целевой переменной.

Следующие переменные близки к нормально распределенным переменным:

Рост населения
Артериальное давление взрослого человека
Положение частицы, которая испытывает диффузию
Погрешности измерения
Остатки в регрессии
Размер обуви в популяции
Время, необходимое сотрудникам, чтобы добраться до дома
Большое количество воспитательных мероприятий

Вдобавок нас окружает большое количество переменных, которые являются нормальными с достоверностью x%; x ‹100.

Что такое нормальное распределение?

Нормальное распределение - это распределение, которое зависит исключительно от двух параметров набора данных: среднего и стандартного отклонения выборки.

Среднее - это среднее значение всех точек в выборке, которое вычисляется путем суммирования значений и последующего деления на общее количество значений в выборке.
Стандартное отклонение - указывает, насколько набор данных отклоняется от среднего значения выборки.

Эта характеристика распределения делает его чрезвычайно простым для статистиков, и, следовательно, любую переменную, имеющую нормальное распределение, можно спрогнозировать с более высокой точностью. По сути, это может помочь упростить модель.

Следует отметить феноменальный факт: как только вы найдете распределения вероятностей большинства переменных в природе, все они будут приблизительно соответствовать нормальному распределению.

Нормальное распределение легко объяснить. Причины:

Среднее значение, мода и медиана распределения равны.
Нам нужно только использовать среднее значение и стандартное отклонение, чтобы объяснить все распределение.

Нормальное распространение - это просто ... нормальное поведение, с которым мы так хорошо знакомы

Но как примерно нормально распределено такое количество переменных? Какая логика за этим?

Для простоты предположим, что существует случайная величина, такая как кровяное давление в человеческой популяции, которая имеет среднее значение m и стандартное отклонение s.

Традиционно мы собирали образцы для представления случайной величины. У каждого образца есть свое среднее значение. Теперь, если мы начнем повторять эксперимент и начнем собирать больше выборок и начнем вычислять среднее значение каждой из выборок, тогда среднее значение выборки будет иметь собственное распределение вероятностей, и это распределение будет сходиться к нормальному распределению, когда мы начнем увеличивать количество выборок.

Предположим, что рост населения - случайная величина. Мы можем взять выборку высот, построить график ее распределения и вычислить выборочное среднее. Когда мы повторяем этот эксперимент, увеличивая количество образцов, среднее значение образцов в конечном итоге окажется очень близким к нормальному.

Это известно как центральная предельная теорема.

Это подводит нас к сути статьи:

Если построить функцию плотности нормального распределения, то кривая будет иметь следующие характеристики:

Колоколообразная кривая выше имеет 100 средних значений и 1 стандартное отклонение.

Среднее - это центр кривой. Это самая высокая точка кривой, так как большинство точек находятся в среднем значении.
На каждой стороне кривой равное количество точек. В центре кривой больше всего точек.
Общая площадь под кривой - это полная вероятность всех значений, которые может принимать переменная.
Таким образом, общая площадь кривой составляет 100%.

Примерно 68,2% всех точек находятся в диапазоне от -1 до 1 стандартного отклонения.
Около 95,5% всех точек находятся в диапазоне от -2 до 2 стандартных отклонений.
Около 99,7% всех точек находятся в диапазоне от -3 до 3 стандартных отклонений.

Это позволяет нам легко оценить, насколько изменчивой является переменная, и с учетом уровня достоверности, каким будет ее вероятное значение.

Например, на серой колоколообразной кривой выше вероятность того, что значение переменной будет в пределах 101–99, составляет 68,2%.

Представьте себе, какое доверие есть у ученых, занимающихся данными, при принятии будущих решений, когда они поймут распределение вероятностей целевой переменной

Нормальная функция распределения вероятностей

Функция плотности вероятности нормального распределения:

Функция плотности вероятности - это, по сути, вероятность принятия значения непрерывной случайной величиной.

Нормальное распределение представляет собой колоколообразную кривую, где среднее значение = режим = медиана.

Если вы построите кривую распределения вероятностей с использованием вычисленной функции плотности вероятности, тогда площадь под кривой для данного диапазона дает вероятность того, что целевая переменная находится в этом диапазоне.
Эта кривая распределения вероятностей основана на функции распределения вероятностей, которая сама вычисляется по ряду параметров, таких как среднее значение или стандартное отклонение переменной.
Мы могли бы использовать эту функцию распределения вероятностей, чтобы найти относительную вероятность того, что случайная величина примет значение в пределах диапазона. Например, мы могли бы записывать дневную доходность акции, группировать их в соответствующие сегменты, а затем определять вероятность того, что акция принесет 20-40% прибыли в будущем.

Чем больше стандартное отклонение, тем больше волатильность в выборке.

Как найти распределение функций в Python?

Самый простой метод, которому я следую, - загрузить все функции во фрейм данных, а затем написать этот скрипт:

Используйте библиотеку Python Pandas:

DataFrame.hist(bins=10)
#Make a histogram of the DataFrame.

Он показывает нам распределения вероятностей всех переменных.

Что означает нормальное распределение переменной?

Независимые случайные величины, которые демонстрируют нормальное распределение, всегда демонстрируют нормальное распределение. Например, если A и B - две переменные с нормальным распределением, то:

A + B обычно распространяется

В результате чрезвычайно просто предсказать переменную и найти ее вероятность в диапазоне значений благодаря хорошо известной функции распределения вероятностей.

Что делать, если распределение выборки не является нормальным?

В этом разделе кратко выделены несколько техник, которые мы можем использовать.

1. Линейное преобразование

Линейное преобразование фокусируется на вычислении z-оценки (известной как стандартная оценка) выборки.

После того, как мы соберем образец для переменной, мы можем вычислить Z-оценку, линейно преобразовав образец, используя приведенную выше формулу:

Рассчитать среднее
Рассчитайте стандартное отклонение
Для каждого значения x вычислите Z, используя:

Мы также можем попытаться преобразовать распределение в нормальное. Эти методы требуют предварительной тщательной оценки данных и их поведения.

2. Использование преобразования Бокскокса

Вы можете использовать пакет Python SciPy для преобразования данных в нормальное распределение:

scipy.stats.boxcox(x, lmbda=None, alpha=None)

3. Использование преобразования И Эо-Джонсона

Дополнительно можно использовать силовой трансформатор yeo-johnson. Научный комплект Python предоставляет соответствующую функцию:

sklearn.preprocessing.PowerTransformer(method=’yeo-johnson’, standardize=True, copy=True)

Обратите внимание, рекомендуется понимать, когда использовать каждый из силовых трансформаторов. Объяснение силовых трансформаторов, таких как Box-Cox и Yeo Johnson, и их вариантов использования выходит за рамки данной статьи. У обоих этих трансформаторов есть свои варианты использования, и оба работают по-разному

Проблемы с нормальностью

Поскольку нормальное распределение простое и хорошо изученное, оно также часто используется в прогнозных проектах. Предположение о нормальности имеет свои недостатки. Например, мы не можем предположить, что цена акции следует нормальному распределению, поскольку цена не может быть отрицательной. Следовательно, цена акции потенциально следует логарифму нормального распределения, чтобы гарантировать, что она никогда не будет ниже нуля.

Мы знаем, что дневная доходность может быть отрицательной, поэтому доходность иногда может следовать нормальному распределению.

Было бы неразумно предполагать, что переменная следует нормальному распределению без какого-либо анализа.

Переменная может следовать за распределением Пуассона, Стьюдента или биномиальным распределением в качестве примера, и ложное предположение, что переменная следует нормальному распределению, может привести к неточным результатам.

Резюме

В этой статье проиллюстрировано, что такое нормальное распределение и почему оно так важно, особенно для специалистов по данным и экспертов по машинному обучению.