Максимальная вероятность нормального распределения

Начнем с уравнения для нормального распределения или нормальной кривой.

Он имеет двапараметра. Первый параметр, греческий символ μ (mu), определяет местоположение нормального распределения значит.

а) меньшеезначение для μ сдвигает среднее значение распределения влево.

б) большеезначение для μ сдвигает среднее значение распределения вправо.

Второй параметр — греческий символ σ (сигма) — это стандартное отклонение. и определяет ширину нормального распределения

а) большеезначение σ делает нормальную кривую короче и шире.

б) меньшеезначение σ делает нормальную кривую выше и уже.

Мы собираемся использовать вероятность нормального распределения, чтобы найти оптимальные параметры для μ среднего значения и σ стандартного отклонения,

учитывая некоторые данные x.

Начнем с самого простого набора данных: одного измерения.

Цель этого сверхпростого примера — передать основные понятия того, как найти оценки максимального правдоподобия для μ и σ.

Здесь мы измерили лампочку, и она весит 32 грамма.

Теперь просто посмотреть, что происходит…

Мы можем наложить нормальное распределение с μ= 28иσ =2 на данные

а затем подставьте числа в это уравнение

Вероятность кривой с μ = 28 и σ =2, учитывая данные 0,03

Теперь мы можем немного сдвинуть распределение вправо, установив μ = 30, а затем вычислить вероятность

Снова мы просто подставляем числа в функцию правдоподобия:

Если мы решим зафиксировать σ равным 2, чтобы оно было таким же заданным, как и данные, тогда мы можем подставить целую кучу значений для μ и посмотреть, какое из них дает максимальную вероятность.

Например, если мы начнем со среднего значения распределения здесь слева, равного 20 граммам.

и мы получаем очень-очень маленькую вероятность, равную 0,0000000003

в этом случае наклон равен нулю, когда μ = 32

Теперь мы можем исправить μ=32 и обращаться с ним как с данными, как с данными.

И мы можем подставлять разные значения σ, чтобы найти то, которое дает максимальную вероятность.

Примечание. На самом деле вам потребуется более одного измерения, чтобы найти оптимальное значение для σ.

Если бы у нас было больше данных, мы могли бы построить вероятности для различных значений σ и оценка максимальной вероятности для σ была бы на пике, где наклон кривой равен нулю

Чтобы найти максимальную вероятность оценку для μ, мы рассматриваем σ как константу, а затем находим, где наклон его функция правдоподобия равна 0.

И чтобы найти оценку максимального правдоподобия для σ, мы относимся к μ как к константе, а затем находим, где наклон его вероятности функция равна 0.

Пример с одним измерением упростил математику, но теперь я думаю, что мы готовы погрузиться немного глубже.

Итак, давайте используем набор данных из двух выборок, чтобы вычислить вероятность нормального распределения.

Чтобы отслеживать ситуацию, давайте назовем первую луковицу весом 32 грамма X_1.

И вторая луковица, которая весит 34 граммаX _2.

Мы уже видели, как рассчитать вероятность для этой кривой с учетом X_1, лампочки весом 32 грамма, и мы можем рассчитать вероятность для кривой с учетом X_2, подставив 34 в эту функцию правдоподобия

но какова вероятность этой нормальной кривой с учетом X меньше 1 и X меньше 2

Эти измерения независимы (т. е. взвешивание X_1 не повлияло на взвешивание X_2).

Так что мы просто подставляем числа и делаем математику

И это дает нам очень небольшое число:

Если бы у нас была третья точка данных, мы просто добавили бы ее к заданной стороне общей вероятности.

С n точками данных

Затем перемножьте все n отдельных функций правдоподобия.

Теперь, когда мы знаем, как рассчитать вероятность нормального распределения, когда у нас есть более одного измерения.

Мы просто перемножаем отдельные вероятности.

Давайте найдем оценки максимального правдоподобия для μ и σ

Вот функция правдоподобия без указания значения для μ и σ

Он равен произведению функций правдоподобия для N отдельных измерений.

и вот как выглядит уравнение:

Что нам нужно сделать, так это взять две разные производные этого уравнения:

Одна производная будет по µ. Когда мы относимся к σ как к константе и можем найти оценку максимального правдоподобия для μ, найдя, где эта производная равна нулю

другая производная будет относиться к σ, когда мы относимся к μ как к константе

И мы можем найти оценку максимального правдоподобия для σ, найдя где эта производная равна нулю. Прежде чем мы попытаемся взять какие-либо производные, давайте возьмем логарифмфункции правдоподобия:

Мы делаем это, потому что это упрощает использование производного пути.

В функции правдоподобия и в логарифмефункции правдоподобия пики приходятся на одни и те же значения для μ и σ.

Теперь мы шаг за шагом пройдемся по всем преобразованиям, которые журнал имеет для этой функции.

Сначала журнал преобразует умножение

в дополнение:

Сначала сосредоточимся на этом

Преобразовать умножение в сложение

Преобразование 1 над квадратным корнем в показатель степени -1/2

в правой части преобразуйте показатель степени в умножение:

Вернемся к приведенному выше уравнению: показатель степени -1/2 в умножении

Собираем все вместе:

Резюмируя:

И, выполнив те же действия, мы можем преобразовать оставшиеся части суммы:

В:

Просто чтобы прояснить, как мы упрощаем, имейте в виду, что, поскольку у нас есть n точек данных, это означает, что у нас есть термин для первой точки данных, X sub 1, и что это представляет условия для оставшихся n минус 1 точек данных.

Тогда все n отрицательного логарифма σ могут быть объединены

и последние части каждого термина остаются прежними.

Это журнал функции правдоподобия после упрощения, и именно от него мы возьмем производную:

Итак, давайте переместим его наверх для справки:

Начнем с производной по μ

Эта производная представляет собой функцию наклона логарифма кривой правдоподобия, и мы будем использовать ее для нахождения пика.

Первый член не содержит μ, поэтому его производная равна 0, второй член также не содержит μ, поэтому его производная также 0.

Третий член содержит μ, так что теперь нам нужно работать, в частности, числитель содержит μ, и мы должны применить.

Мы можем использовать цепное правило, помните, что производная по отношению к μ ( σ является константой и, таким образом, знаменатель не меняется)

Мы можем применить ту же логику к остальным терминам и получить

мы можем вывести σ в квадрат и сложить числители вместе и объединить измерения и μ

Теперь возьмем производную функции логарифмического правдоподобия по σ.

Эта производная представляет собой функцию наклона логарифма кривой правдоподобия, и мы будем использовать ее для нахождения пика.

Итак, с этого момента, поскольку они достигают максимума в одном и том же месте, я покажу вам функции правдоподобия вместо логарифмических функций правдоподобия.

Отзывать

Первый член не содержит σ, поэтому его производная равна нулю, производная второго члена равна n по σ.

Производная третьего члена несложная, но ее легче понять, если мы перепишем 1 на σ в квадрате.

Мы можем использовать ту же логику для остальных членов и получить производную логарифмической функции правдоподобия относительно σ

Упрощение:

Чтобы найти оценку максимального правдоподобия для μ, нам нужно решить, где производная по μ=0, поскольку наклон равен нулю на пике кривой:

Аналогичным образом, чтобы найти оценку максимального правдоподобия для σ, нам нужно решить, где производная по σ=0

Установите производную по μ в 0 и найдите μ.

Начнем с умножения обеих сторон на σ в квадрате, в результате чего σ в квадрате исчезнет:

Затем мы добавляем n раз μ к обеим сторонам,

разделите обе части на n и решите:

Оценка максимального правдоподобия для μ — это среднее значение измерений.

Теперь нам нужно установить производную по σ равной 0.

Теперь умножьте обе части на σ

Добавьте n к обеим сторонам и умножьте обе стороны на σ в квадрате

Разделите обе части на n

и возьмите квадратный корень из обеих сторон и, наконец:

Мы видим, что оценка максимального правдоподобия для σ — это стандартное отклонение измерений.

Подводя итог, среднее значение данных представляет собой оценку максимального правдоподобия того, куда должен идти центр нормального распределения, а стандартное отклонение данных представляет собой оценку максимального правдоподобия того, насколько широкой должна быть нормальная кривая.

Использованная литература:

Пожалуйста, подпишитесь на его канал: