эксцесс

Эксцесс — это статистическая мера, описывающая форму распределения вероятностей, в частности, насколько сильно его хвосты по сравнению с нормальным распределением.

В теории вероятностей и статистике эксцесс (что означает «изогнутый, выгнутый») — это мера «хвостости» распределения вероятностей вещественная случайная величина.

Типы куртоза

  1. Мезокуртическое: мезокуртическое распределение имеет эксцесс 3, что соответствует нормальному распределению. Это означает, что распределение не имеет ни тяжелых, ни легких хвостов, а пик распределения умеренный.
  2. Лептокуртик: лептокуртик имеет эксцесс больше 3. Это означает, что у распределения более тяжелые хвосты, чем у нормального распределения, и больше его значений сконцентрировано вокруг среднего значения. Лептокуртические распределения обычно наблюдаются на финансовых рынках и в других областях, где более вероятны экстремальные явления.
  3. Платикуртическое: платикуртическое распределение имеет эксцесс менее 3. Это означает, что у распределения более светлые хвосты, чем у нормального распределения, и больше его значений отклоняются от среднего значения. Платикуртическое распределение обычно наблюдается в таких областях, как экология, где данные имеют тенденцию быть разбросанными и иметь широкий диапазон значений.

Давайте возьмем пример и поймем, как это может быть отличительной чертой при анализе данных.

Известно, что доходность фондового рынка имеет распределение лептокуртического эксцесса. Это означает, что хвосты распределения тяжелее, что указывает на то, что экстремальные события, такие как обвалы рынка, происходят с большей вероятностью, чем можно было бы ожидать при нормальном распределении доходов.

Другим примером может быть распределение экзаменационных баллов в классе. Если распределение баллов платикуртическое, то большинство учащихся набрали бы баллы, близкие к среднему, и очень немногие учащиеся получили бы очень низкие или очень высокие баллы. С другой стороны, если распределение баллов является лептокуртическим, то значительное количество учащихся получит очень низкие или очень высокие баллы, а небольшое количество учащихся наберет баллы, близкие к среднему.

QQPlot

График QQ (сокращение от quantile-quantile plot) — это графический метод, используемый для проверки того, соответствует ли выборка данных или распределение вероятностей определенному теоретическому распределению, например нормальному распределению.

На графике QQ квантили выборки или распределения отображаются против квантилей теоретического распределения. Если выборка или распределение близко соответствуют теоретическому распределению, точки на графике QQ будут лежать на прямой линии. Если выборка или распределение отклоняются от теоретического распределения, точки на графике QQ отклоняются от прямой линии.

Вот как выглядит нормальное распределение на QQplot:

Как мы видим, наши выборочные данные в основном остаются на линии и не сильно отклоняются от линии.

Вот как интерпретировать график QQ:

  1. График QQ сравнивает квантили выборки данных с квантилями теоретического нормального распределения. Если точки на графике образуют прямую линию, выборка данных примерно нормально распределена.
  2. Если точки на графике отклоняются от прямой линии, выборка данных отклоняется от нормальности. Если точки на графике отклоняются от прямой линии по определенной схеме, это может дать представление о характере отклонения.
  3. Если точки на графике находятся ниже опорной линии для малых значений и выше линии для больших значений, выборка имеет более тяжелые хвосты, чем нормальное распределение. Это указывает на положительную асимметрию данных.
  4. Если точки на графике находятся выше опорной линии для малых значений и ниже линии для больших значений, выборка имеет более светлые хвосты, чем нормальное распределение. Это указывает на отрицательную асимметрию данных.

Равномерное распределение

Равномерное распределение — это распределение вероятностей, при котором каждое возможное значение случайной величины между двумя конечными точками равновероятно. Распределение характеризуется прямоугольной формой, где функция плотности вероятности (PDF) постоянна в пределах интервала распределения и равна нулю вне этого интервала.

Равномерное распределение обычно обозначается как U(a, b), где a и b — конечные точки интервала. PDF равномерного распределения определяется как:

f(x) = 1/(b-a), для a ‹= x ‹= b f(x) = 0, иначе

• Примеры

  1. Рост человека, случайно выбранного из группы людей, чей рост колеблется от 5 футов 6 до 6 футов 0, будет соответствовать непрерывному равномерному распределению.
  2. Время, необходимое машине для производства продукта, где время производства составляет от 5 до 10 минут, будет соответствовать непрерывному равномерному распределению.
  3. Расстояние, которое случайно выбранный автомобиль проезжает на баке с бензином, где расстояние колеблется от 300 до 400 миль, будет подчиняться непрерывному равномерному распределению.
  4. Вес случайно выбранного яблока из корзины яблок весом от 100 до 200 граммов будет соответствовать непрерывному равномерному распределению.

Это все выборочные диапазоны, и именно поэтому мы стремимся получить равномерное распределение между двумя заданными диапазонами.
Предположим, что диапазон не был бы задан в случае высоты, тогда мы получили бы нормальное распределение.

Применение равномерного распределения в машинном обучении

Равномерное распределение имеет различные применения в машинном обучении и науке о данных. Вот некоторые примеры:

  1. Инициализация параметров. В некоторых алгоритмах машинного обучения, таких как нейронные сети, начальные значения параметров имеют решающее значение для процесса обучения. Равномерное распределение часто используется для инициализации параметров в определенном диапазоне, чтобы обеспечить их случайное распределение.
  2. Регуляризация. Регуляризация — это метод, используемый для предотвращения переобучения в моделях машинного обучения. Регуляризацию L1 и L2 можно использовать для добавления штрафного члена к целевой функции модели. Срок штрафа рассчитывается с использованием абсолютных или квадратичных значений параметров соответственно. Равномерное распределение часто используется для инициализации параметра регуляризации.
  3. Увеличение данных: увеличение данных — это метод, используемый для увеличения размера набора данных путем создания новых выборок из существующих. Равномерное распределение часто используется для создания случайных перемещений, поворотов и других преобразований исходных данных.
  4. Случайная выборка. Случайная выборка — это метод, используемый для выбора подмножества данных из большого набора данных. Равномерное распределение часто используется для случайной выборки точек данных из набора данных. Это можно использовать для перекрестной проверки, начальной загрузки и других методов, используемых для оценки производительности моделей машинного обучения.

Лог нормального распределения

Логарифмически нормальное распределение – это распределение вероятностей, описывающее данные, в которых логарифм значений соответствует нормальному распределению. Другими словами, если вы возьмете логарифм каждой точки данных в наборе, полученные значения будут подчиняться нормальному распределению.

Функция плотности вероятности логарифмически нормального распределения:

f(x) = (1 / (x * s * sqrt(2 * pi))) * exp(-(ln(x) — m)² / (2 * s²))

где:

  • x - интересующая переменная (обычно положительное действительное число)
  • m - среднее значение логарифма переменной
  • s - стандартное отклонение логарифма переменной
  • pi — математическая константа pi (приблизительно 3,14159).
  • e — математическая константа e (приблизительно 2,71828).

Логарифмически нормальное распределение часто используется для моделирования данных с положительной асимметрией, таких как доход или курсы акций.

Примеры

  1. Длина комментариев, размещаемых на дискуссионных форумах в Интернете, подчиняется логарифмически нормальному распределению.
  2. Время пребывания пользователей на онлайн-статьях (шутках, новостях и т. д.) подчиняется логарифмически нормальному распределению.
  3. Продолжительность шахматных партий имеет тенденцию следовать логарифмически нормальному распределению.
  4. В экономике есть свидетельства того, что доход 97–99% населения распределяется логарифмически нормально.

Как проверить, соответствуют ли наши данные логарифмически нормальному распределению?

Мы можем применить логарифм к нашим данным, и если они имеют тенденцию следовать нормальному распределению, то мы можем окончательно сказать, что наши исходные данные следуют логарифмически-нормальному распределению.

Распределение Парето

Распределение Парето — это тип распределения вероятностей, который обычно используется для моделирования распределения богатства, дохода и других величин, демонстрирующих сходное степенное поведение.

Сила закона

В математике степенной закон – это функциональная связь между двумя переменными, при которой одна переменная пропорциональна степени другой. В частности, если y и x - две переменные, связанные степенным законом, то отношение можно записать как:

y = k * x^a

Вильфредо Парето первоначально использовал это распределение для описания распределения богатства между людьми, поскольку оно, казалось, довольно хорошо показывало, что большая часть богатства любого общества принадлежит меньшему проценту людей в это общество. Он также использовал его для описания распределения доходов. Эта идея иногда выражается более просто как принцип Парето или «правило 80–20», согласно которому 20% населения контролируют 80% богатства.

Математические преобразования

Есть несколько математических преобразований, которые можно применить к столбцам данных, чтобы получить нормальное распределение. Вот несколько распространенных методов:

  1. Логарифмическое преобразование. Логарифмирование данных может быть полезно, когда данные сильно искажены или имеют длинный хвост. Логарифмическое преобразование может сжимать более высокие значения при расширении более низких значений, что может помочь аппроксимировать нормальное распределение.
  2. Преобразование квадратного корня. Извлечение квадратного корня из данных также может использоваться для уменьшения асимметрии и обеспечения более нормального распределения данных. Подобно логарифмическому преобразованию, преобразование квадратного корня может сжимать более высокие значения и расширять более низкие значения.
  3. Преобразование Бокса-Кокса. Преобразование Бокса-Кокса — это более общий метод, который можно использовать для преобразования данных к нормальному распределению с помощью параметра степенного преобразования, лямбда (λ), который оценивается по данные. Это обеспечивает гибкое преобразование, которое может обрабатывать различные распределения данных.
  4. Преобразование Z-оценки. Преобразование Z-оценки включает вычитание среднего значения данных и деление на стандартное отклонение. Это можно использовать для стандартизации данных и преобразования их в стандартное нормальное распределение со средним значением 0 и стандартным отклонением 1.
  5. Квантильное преобразование. Квантильное преобразование сопоставляет данные с указанным квантилем стандартного нормального распределения. Это может быть полезно для преобразования данных, чтобы близко приблизиться к нормальному распределению, сохраняя при этом ранговые отношения исходных данных.
  6. Преобразование Джонсона. Преобразование Джонсона — это более сложное преобразование, которое можно использовать для преобразования данных в нормальное распределение с помощью системы уравнений, включающей четыре параметра. Это преобразование способно обрабатывать данные с асимметрией и эксцессом, которые значительно отклоняются от нормы.

Важно отметить, что эти преобразования не всегда идеально нормализуют данные, и их эффективность зависит от конкретных характеристик данных. Всегда рекомендуется визуально проверять преобразованные данные и оценивать их нормальность с помощью статистических тестов, прежде чем делать какие-либо предположения о распределении данных.