Введение в теорему Байеса.

Как хорошо известно, теорема Байеса представляет собой очень значительный шаг вперед в решении вероятностных задач, поскольку она позволяет построить распределение вероятностей как сумму двух частей, одна из которых основана на априорных предположениях, а другая — на имеющихся данных.

Приоритет представляет собой вероятность, которая присваивается каждому событию до того, как данные станут доступны, и, следовательно, выполняется с субъективной информацией. Поскольку каждый может использовать другую априорную функцию, в зависимости от знаний, которые он или она имеет о процессе, окончательное распределение вероятностей не является уникальным, но не беспокойтесь, это не представляет проблемы для математического формализма.

Функция правдоподобия — это функция, которая моделирует поведение вероятностных параметров с учетом наблюдаемых данных. Следовательно, это на 100% объективно, так как это прямое представление событий в параметрах распределения.

По этой причине необходимо иметь метод расчета параметров распределения вероятностей с использованием имеющихся данных.

MLE (оценка максимального правдоподобия) — это способ построения функций правдоподобия на основе выборочных данных. Этот метод позволит вычислить наиболее вероятное значение параметров распределения в зависимости от характера зарегистрированных событий (т.е. данных)

Теоретическая обработка функции правдоподобия.

Пусть это набор данных {x1,…xN}, который, как известно, распределен согласно определенному вероятностному распределению.

где

являются параметрами распределения.

Тогда, если мы предположим, что события независимы друг от друга, совместная вероятность данных как дыры определяется выражением:

Чтобы вычислить различные параметры, которые максимизируют функцию правдоподобия для наблюдаемых данных, необходимо будет продифференцировать функцию по каждому из параметров и установить ее равной нулю.

Иногда этот расчет может быть сложным для выполнения, поэтому удобно логарифмировать функцию правдоподобия вместо самой функции; так как он переводит произведение в сумму.

Кроме того, логарифм является монотонно возрастающей функцией, что гарантирует, что крайние значения логарифма будут такими же, как и у функции.

Поэтому можно написать:

Это приведет к системе r уравнений, по одному для каждого параметра, что позволит нам найти их значения.

В большинстве случаев r=1, поэтому нужно будет решить одно единственное уравнение.

Первый пример. Биномиальное распределение.

Биномиальное распределение — это распределение вероятностей, которое обобщает вероятность того, что значение примет одно из двух независимых значений при заданном наборе параметров или предположений.

Итак, как видно, наиболее вероятным значением параметра p является среднее значение наблюдаемых данных.

Второй пример. Распределение Пуассона.

Распределение Пуассона — это распределение вероятностей, которое используется, чтобы показать, сколько раз событие может произойти в течение определенного периода времени. Распределения Пуассона часто используются для понимания независимых событий, которые происходят с постоянной скоростью в течение заданного интервала времени.

Как и в случае биномиального распределения, видно, что наиболее вероятным значением параметра является среднее значение наблюдаемых данных.

Третий пример. Экспоненциальное распределение.

Экспоненциальное распределение часто используется для моделирования времени, прошедшего между редкими событиями.

В этом случае наиболее вероятное значение параметра является обратным среднему значению наблюдаемых данных.

Четвертый пример. Нормальное распределение

Нормальное распределение, безусловно, является наиболее важным распределением вероятностей. Одной из основных причин этого является Центральная предельная теорема, которая утверждает, что если добавить большое количество случайных величин, то распределение суммы будет приблизительно нормальным при определенных условиях.

взятие производных, соответствующих 0, приводит к:

Нормальное распределение определяется двумя параметрами, поэтому для определения распределения необходимо решить два уравнения.

Как видно, наиболее вероятным значением первого параметра является, опять же, среднее значение наблюдаемых данных, а наиболее вероятным значением второго параметра является стандартное отклонение.

Практический пример

Чтобы закончить это исследование, мы увидим практический пример того, как применять эти инструменты к реальной проблеме.

Представьте, что у нас есть случайная величина Y, которая, как мы знаем, устроена как нормальное распределение N(a,b), и мы хотим найти параметры распределения вероятностей для этой переменной. .

Чтобы найти апостериорное распределение для Y, нам нужно построить априорное распределение и функцию правдоподобия.

Мы не знаем, каковы точные значения для и a и b, поэтому, чтобы определить априор, мы сделаем обоснованное предположение.

Доступная нам выборка данных состоит из n наблюдений {y1, …,yn}, поэтому мы будем использовать результаты, полученные в примере 4, для определения параметров функции правдоподобия.

Пусть эти параметры будут определены как:

Здесь у нас есть преимущество, заключающееся в том, что и априорное, и вероятностное распределение имеют форму нормального распределения, поэтому мы можем использовать тот факт, что произведение двух нормалей является другой нормой, в данном случае с параметрами:

Но работа еще не закончена, для этого мы должны убедиться, что найденное нами распределение является реальным распределением вероятностей, это означает, что:

Способ сделать это — нормализовать распределение, что приводит нас к нашему конечному результату.