Практические учебные пособия, MATH REFRESHER FOR DATA SCIENTISTS

Квантили - ключ к пониманию распределения вероятностей

Если вы когда-либо испытывали замешательство при использовании распределения вероятностей, эта статья для вас.

Вы встречались с распределением вероятностей много раз. Вы знаете, что есть несколько разных типов. Но в глубине души вы чувствуете замешательство, когда вам нужно использовать это на практике. Какая, черт возьми, разница между распределением вероятностей и распределением кумулятивной вероятности? Должен ли я проверять уровень достоверности или альфа по оси X или Y? Если да, то эта статья для вас. В конце концов, вы будете чувствовать себя комфортно, используя распределения вероятностей для дискретных или непрерывных случайных величин. Давайте погрузимся в это!

В этой статье мы рассмотрим следующие темы:

  1. Функция плотности вероятности (PDF)
  2. Вероятностная функция масс (PMF)
  3. Кумулятивное распределение вероятностей (CDF)
    3.1 Кумулятивное распределение вероятностей для ДИСКРЕТНЫХ случайных величин (CMF)
    3.2 Кумулятивное распределение вероятностей для НЕПРЕРЫВНЫХ случайных величин (CDF)
  4. Сводка вероятностных распределений
  5. Функция квантилей
  6. Спасибо за чтение и ссылки

1. Распределение плотности вероятности (PDF)

Распределение плотности вероятности нормального распределения - это то, о чем люди в основном думают, когда слышат слово «распределение». Имеет особую форму колокола:

Функция плотности вероятности (PDF) отображает значение в его плотность вероятности [1]. Это похоже на физику, где плотность вещества - это его масса на единицу объема. Например, 1 литр воды весит примерно 1 кг, поэтому плотность воды составляет примерно 1 кг / л или 1000 кг / м³. Аналогичным образом плотность вероятности измеряет вероятность на единицу x.

PDF относится к непрерывной случайной величине, что означает, что переменная может принимать любое значение в пределах определенного диапазона действительных чисел. Случайный показывает неопределенность того, какие значения может принимать переменная. Он дает бесконечное количество возможностей, например 0,1, но также 0,101, 0,1001 и т. Д. Таким образом, вероятность того, что непрерывная случайная величина будет равна заданному значению, равна нулю.

Вероятность на графике PDF представлена ​​площадью под кривой плотности. Площадь под точкой равна нулю. Вот почему PDF используется для проверки вероятности того, что случайная величина попадает в заданный диапазон значений, а не для получения какого-либо конкретного значения. Например, какова вероятность того, что мы потеряем деньги, инвестируя в фонд, так что доходность будет отрицательной? Здесь мы считаем, что все доходы меньше нуля.

Интуитивно PDF представляет собой примерно линию, описывающую гистограмму. Например, мы хотим разделить 992 участника эксперимента на возрастные группы (0–10, 11–20 и т. Д.). Мы подсчитываем, сколько членов попадает в каждую группу, и представляем это в виде столбцов на гистограмме:

Насколько высоки шансы, что случайно выбранный нами человек будет членом данной возрастной группы? Во-первых, мы должны преобразовать частотное распределение в распределение вероятностей. Это означает расчет плотности вероятности на основе количества участников в каждой группе. Поскольку столбцы прямоугольные, а площадь под функцией плотности вероятности всегда равна 1, мы можем использовать упрощенное уравнение:

Для частот, представленных на предыдущем графике, мы имеем:

Теперь мы можем построить наши данные, используя плотности вместо количества на оси Y. Красная кривая соединяет расчетные точки и обозначает функцию плотности вероятности:

Но обратите внимание, что я сгенерировал данные для этого графика из нормального распределения. Вот почему PDF и гистограмма так хорошо подходят друг другу. PDF имеет «закрытую» форму, что требует предварительного определения распределения и параметров (среднее и стандартное отклонение в случае нормального распределения). Гистограмма использует необработанные данные, поэтому показывает реальное распределение. Это позволяет обнаруживать аномалии, особенно при большом количестве полос.

Заинтересованы в других параметрах, используемых для описания распределения (ожидаемое значение, дисперсия, асимметрия и эксцесс)? Перейти сюда:



Ключевые моменты, которые следует запомнить из приведенного выше анализа:

  • Вероятность - это площадь под кривой плотности вероятности (PDF).
  • Вероятность того, что непрерывная случайная величина примет заданное значение, равна нулю. Итак, для указанного значения x мы можем проверить только плотность вероятности, что не очень полезно.
  • Поэтому мы ориентируемся на интервалы значений. Это позволяет нам делать вероятностные утверждения о диапазоне значений. Например, вероятность того, что участнику будет не менее 40 лет, составляет 50%.

2. Вероятностная функция масс (PMF)

Вероятностная функция масс (PMF) относится к дискретным случайным величинам. В отличие от непрерывных случайных величин, дискретные случайные величины могут принимать только счетное количество дискретных значений, таких как 0, 1, 2,…. Простыми примерами являются бросание кости, подбрасывание монеты или обнаружение мошеннических транзакций (мошенничество либо отсутствует).

Подобно непрерывным случайным величинам, мы можем создать гистограмму дискретных данных. Но нет необходимости агрегировать значения в интервалы. Рассмотрим сумму бросков пары игральных костей. Количество результатов конечно, так как значения на обоих кубиках от 1 до 6. На графике ниже показан пример гистограммы для 1000 бросков хорошей пары кубиков:

Оба кубика справедливы, что означает, что вероятность выпадения каждого числа от 1 до 6 одинакова и равна 1/6. Итак, самая популярная сумма - 7. Как и в случае с непрерывными случайными величинами, мы можем выразить каждый результат как вероятность.

Если мы бросим пару кубиков, есть 36 возможных исходов (по 6 вариантов на каждом кубике). Если сумма равна 2, возможна только одна комбинация: (1,1). Таким образом, вероятность получить сумму, равную 2, составляет 1/36 = 0,0278. Аналогично для суммы 12, возможно только для (6,6). Таким же образом мы можем рассчитать вероятности других возможных исходов. Результаты, представленные на графике, создают функцию массы вероятности (PMF):

Итак, до сих пор мы рассматривали следующие типы сюжетов:

  • Гистограмма - это диаграмма, показывающая, сколько раз каждый диапазон значений встречается в наборе данных. Здесь не требуется никаких предположений о распределении, но мы должны заранее указать количество баров. Гистограмма строится из конечного числа выборок. Сумма значений гистограммы для всех столбцов равна общему количеству выборок.
  • Функция плотности вероятности (PDF) описывает плотность вероятности непрерывных случайных величин. Вероятность на PDF - это площадь под кривой плотности. Поскольку вероятность данного значения равна нулю для непрерывных случайных величин, PDF используется для проверки вероятности того, что переменная попадает в заданный интервал. Вся площадь под PDF равна единице.
  • Вероятностная функция масс (PMF) описывает вероятность дискретных случайных величин. Это означает, что переменная может принимать только счетное количество дискретных значений, таких как 0, 1, 2 и так далее. Сумма вероятностей всех дискретных значений в PMF равна единице.

Хотя все они очень полезны и широко используются в отрасли, существует еще одно важное распределение вероятностей - функция кумулятивного распределения (CDF).

3. Кумулятивная функция распределения (CDF)

Кумулятивная функция распределения (CDF) случайной величины X описывает вероятность (шансы) того, что X примет значение, равное или меньшее x. Математически мы можем выразить это как:

3.1. Кумулятивная функция распределения ДИСКРЕТНОГО распределения вероятностей (CDF или CMF)

Взяв предыдущий пример броска хорошей пары кубиков, мы можем спросить: какова вероятность того, что сумма двух кубиков меньше или равна 3? Нам нужно сложить вероятность суммы, равную 2 (0,0278), и вероятность суммы 3 (0,0556), поэтому кумулятивная вероятность для x = 3 составляет 0,0278 + 0,0556 = 0,0834. Затем мы повторяем процесс сложения для каждого дискретного значения, чтобы получить кумулятивную функцию распределения дискретного распределения вероятностей:

Как видно на графике, кумулятивная функция вероятности для наивысшего возможного результата равна 1. Поскольку сумма двух игральных костей может принимать только целые значения, график можно выразить с помощью столбцов:

3.2. Кумулятивная функция распределения НЕПРЕРЫВНОГО распределения вероятностей (CDF)

Идея CDF для непрерывных переменных такая же, как и для дискретных переменных. Ось Y показывает вероятность того, что X примет значения, равные или меньшие x. Разница в том, что вероятность меняется даже при небольших перемещениях по оси абсцисс.
Рассматривая пример с групповым возрастом участников, кумулятивная функция распределения выглядит следующим образом:

На графиках ниже сравниваются PDF и CDF нормального распределения с нулевым средним и стандартным отклонением, равным единице:

Можно сделать вывод, что:

  • CDF - неубывающая функция. Он показывает вероятность того, что переменная равна или меньше x, поэтому она может увеличиваться только с увеличением значения x.
  • Мы можем проверить вероятность на обоих графиках, но использовать CDF проще. CDF показывает вероятность по оси ординат, а PDF - плотность вероятности по оси ординат. В случае PDF вероятность - это площадь под кривой PDF.
  • Поскольку нормальное распределение симметрично, CDF для x = 0 (что является средним) составляет 0,5.
  • CDF в левой части асимптотичен 0 и 1 в правой части графика. Точные значения x зависят от типа распределения и параметров (среднее и стандартное отклонение для нормального распределения).

4. Резюме вероятностных распределений

До сих пор мы рассмотрели три способа описания распределения вероятностей: функция плотности вероятности (PDF), функция массы вероятности (PMF) и кумулятивная функция распределения (CDF). Основное различие между PDF и PMF резюмировано в таблице ниже:

Кумулятивная функция распределения показывает вероятность того, что X примет максимальное значение x. Он суммирует шансы для всех меньших значений и равных x. Поскольку ось Y представляет собой вероятность, использование CDF часто оказывается более простым, чем для PDF-файлов.

На следующей схеме показаны типичные графики каждого распределения, по часовой стрелке и начиная с верхнего левого угла: PDF, PMF, CMF, CDF. Он суммирует высокоуровневую характеристику и описывает отношения между заданными типами функций распределения.

Как видно выше, существует некоторая взаимосвязь между различными способами отображения распределения вероятностей.

  • Для непрерывных случайных величин мы можем легко построить PDF и CDF. Область под PDF является вероятной, поэтому мы должны интегрировать, чтобы изменить PDF в CDF, или дифференцировать, чтобы перейти от CDF к PDF.
  • Для дискретных случайных величин PMF показывает вероятность, а CDF (CMF) - кумулятивную вероятность. Чтобы получить CMF из PMF, мы должны сложить вероятности до заданного x. Чтобы пойти другим путем (от CMF к PMF), мы должны вычислить разницу между шагами.
  • Если мы разделим все значения на набор интервалов (см. Примеры с гистограммами выше), мы можем перейти от PDF к типу PMF. Он использует диапазон значений / интервалов и может рассматриваться как приближение PDF. Чтобы перейти от дискретного кумулятивного распределения к непрерывной функции, требуется некоторая форма сглаживания. Это можно сделать, предположив, что данные поступают из определенного непрерывного распределения, такого как нормальное или экспоненциальное, и оценив параметры этого распределения. Изменение дискретной и непрерывной случайной величины обоими способами следует рассматривать как приближение.

5. Функция квантилей

Позвольте представить вам суперзвезду распределений - функцию квантилей. Это позволяет использовать распределения для многих практических целей, таких как поиск доверительных интервалов и проверка гипотез.

Математическое определение состоит в том, что функция квантиля является обратной функцией распределения при α. Он определяет значение случайной переменной таким образом, чтобы вероятность того, что переменная меньше или равна этому значению, равна заданной вероятности:

Где F⁻¹ (α) обозначает α-квантиль X.

Сейчас это может показаться немного загадочным, но более пристальный взгляд на него развеет сомнения. Предположим, что мы хотим проверить 5% общей площади в нижнем хвосте распределения. Мы называем это нижним 5% квантилем X и записываем его как F⁻¹ (0,05). Квантиль - это распределение вероятностей, разделенное на области с равной вероятностью. Если мы рассматриваем проценты, мы сначала делим распределение на 100 частей. Когда мы смотрим на PDF, 5-й квантиль - это точка, которая отсекает область 5% в нижнем хвосте распределения:

Площадь под PDF слева от красной линии составляет ровно 5% от общей площади под кривой. Это подразумевает вероятность 5%. Первым шагом к рисованию красной линии было вычисление того, где заканчивается 0,05 общей площади (здесь x = -1,645). Это можно сделать с помощью программного обеспечения (например, функция qnorm () в R или scipy.stats.norm.ppf () в Python) или вручную с помощью z-таблиц ( пример здесь).

Поскольку CDF имеет вероятность (α) по оси ординат, здесь легче найти это значение:

Это показывает, насколько полезны графики CDF. Мы можем использовать CDF обоими способами:

  • Если у нас есть значение z (или значение x, значение на оси x), мы можем проверить вероятность того, что X примет значение, равное или меньшее x. Например, какова вероятность того, что в среднем клиент проводит в интернет-магазине полчаса или меньше?
  • Если у нас есть вероятность, мы можем проверить значение, которое отсекает область данной альфы. Например, с вероятностью 90% можно сказать, что клиент проводит в интернет-магазинах не менее X часов.

В приведенном выше примере мы рассмотрели только односторонний 5% квантиль (нижний хвост). Мы можем сделать то же самое с вероятностью 5% с двух сторон. Это означает, что мы ищем 5% общей площади под PDF, но делим на 2,5% нижний квантиль (слева) и 2,5% верхний квантиль (справа от графика).

Итак, квантили - это прямая связь между этими графиками.

Основываясь на графиках, мы можем сказать, что у нас есть 95% уверенность в том, что истинный параметр (среднее значение) находится между -1,96 и 1,96. Или существует 5% -ная вероятность того, что он находится за пределами диапазона от -1,96 до 1,96.

Приведенная выше интерпретация подчеркивает, что:

  • уровень достоверности сообщает нам, насколько вероятно рассматриваемое событие или каковы шансы, что данный параметр находится в заданном диапазоне значений.
  • альфа или уровень значимости - это вероятность. Мы можем проверить это по оси Y на графике CDF. Альфа - это уровень уверенности один минус.

Несколько замечаний:

  • Обратная функция Φ⁻¹ (α) - это α-квантиль
  • Когда α мало, квантиль также называется критическим значением.
  • Некоторые квантили имеют особые названия. Если мы разделим вероятность на 100 частей, мы получим процентили. Мы можем сказать 5-й процентиль вместо 5-процентного квантиля. 4-квантили называются квартилями, и они делятся на 4 части с разрывами между значениями 25%, 50% (медиана) и 75%.
  • Для стандартного нормального распределения (нормального распределения с нулевым средним и стандартным отклонением, равным единице N (0,1)), симметричного относительно нуля, мы имеем:

Это доказано на графиках выше, так как мы получаем -1,96 на нижнем хвосте и 1,96 на верхнем хвосте.

Используя квантили, PDF, CDF, мы можем ответить на разные вопросы в зависимости от информации, которой мы владеем, например:

  • Рассматривая среднее значение выборки, какой диапазон значений содержит значение совокупности, в котором мы достаточно уверены? «Разумно» может принимать различные процентные значения и зависит от цели нашего исследования.
  • С какой степенью уверенности можно сказать, что доходность не будет отрицательной?

Спасибо за прочтение!

Я рад, что вы дочитали эту статью до конца. Мы рассмотрели различные типы распределений вероятностей: функция плотности вероятности (PDF), функция массы вероятности (PMF) и функция совокупной плотности (CDF). Затем мы обсудили функцию количества. Он связывает различные способы описания дистрибутивов (PDF и CDF) и позволяет нам очень практично использовать эти дистрибутивы. Надеюсь, это было захватывающее путешествие для вас.

Помните, что самый эффективный способ овладеть математическими навыками - это практика. Так что не ждите, пока вы почувствуете себя «готовым», просто возьмите ручку и бумагу (или свою любимую программу) и попробуйте несколько примеров самостоятельно. Я держу за тебя пальцы.

Я буду рад услышать ваши мысли и вопросы в разделе комментариев ниже, связавшись со мной напрямую через мой профиль LinkedIn или по адресу [email protected]. До скорой встречи!

Вам также может понравиться:







использованная литература

[1] А.Б. Дауни: Думаю, статистика. Исследовательский анализ данных в Python »

[2] К. Александр (2008): «Анализ рыночных рисков. Vol. I. Количественные методы в финансах ». John Wiley & Sons Ltd, ISBN 978–0–470–99800–7.