Википедия определяет оценку максимального правдоподобия (MLE) следующим образом:

«Метод оценки параметров распределения путем максимизации функции правдоподобия, так что в рамках предполагаемой статистической модели наблюдаемые данные являются наиболее вероятными».

Чтобы понять это определение, давайте рассмотрим простой пример. Допустим, у нас есть некоторые непрерывные данные, и мы предполагаем, что они распределены нормально. Предполагая нормальность, мы просто предполагаем, что форма нашего распределения данных соответствует популярной гауссовской колоколообразной кривой. Мы не знаем, насколько «толстой» или «тощей» является кривая или где по оси абсцисс находится пик.

Именно здесь на помощь приходит оценка или вывод параметра. Как мы знаем из статистики, конкретная форма и местоположение нашего гауссовского распределения происходят от σ и μ соответственно. Другими словами, μ и σ - наши интересующие параметры. Эти два параметра определяют нашу кривую, как мы можем видеть, когда смотрим на функцию плотности вероятности нормального распределения (PDF):

Как мы используем MLE?

По-прежнему имея в виду наш пример нормального распределения, цель состоит в том, чтобы определить μ и σ для наших данных, чтобы мы могли сопоставить наши данные с его наиболее вероятной гауссовой колоколообразной кривой. Чтобы быть технически правильным с нашим языком, мы можем сказать, что ищем кривую, которая максимизирует вероятность наших данных с учетом набора параметров кривой. Другими словами, мы максимизируем вероятность данных, в то время как мы максимизируем вероятность кривой. Возможно, последняя интерпретация является более интуитивным способом осмысления проблемы, но обе верны, и мы подойдем к проблеме, используя первую точку зрения.

Чтобы использовать MLE, мы должны сделать два важных допущения, которые обычно вместе называются i.i.d. предположение. Эти предположения утверждают, что:

  1. Данные должны распространяться независимо.
  2. Данные должны быть распределены одинаково.

Другими словами, предположение iid требует, чтобы наблюдение любой данной точки данных не зависело от наблюдения какой-либо другой точки данных (каждая собранная точка данных является независимым экспериментом) и чтобы каждая точка данных была генерируется из того же семейства дистрибутивов с теми же параметрами.

Математика

Часто параметры μ и σ представлены вместе как набор параметров θ, например:

Мы можем сформулировать проблему как задачу с условной вероятностью, цель которой - максимизировать вероятность наблюдения наших данных при заданном θ. Для набора данных размером n математически это выглядит примерно так:

Однако, поскольку мы имеем дело с непрерывным распределением вероятностей, приведенное выше обозначение технически неверно, поскольку вероятность наблюдения любого набора непрерывных переменных равна нулю. Концептуально это имеет смысл, потому что мы можем придумать бесконечное количество возможных переменных в непрерывной области, и деление любого данного наблюдения на бесконечность всегда будет приводить к нулевой вероятности, независимо от того, что это за наблюдение.

Нам нужно думать скорее о вероятности плотности, чем о вероятности. Не вдаваясь в технические подробности разницы между ними, мы просто заявим, что плотность вероятности в непрерывной области аналогична вероятности в дискретной области. Следовательно, в этой задаче максимизации можно использовать плотность вероятности. Чтобы исправить наши обозначения, скажем:

Мы хотим максимизировать плотность вероятности наблюдения наших данных как функцию от θ. Другими словами, мы хотим найти такие значения μ и σ, чтобы этот член плотности вероятности был настолько высоким, насколько это возможно. Мы привыкли, что x является независимой переменной по соглашению. Но в этом случае мы фактически рассматриваем θ как независимую переменную, и мы можем рассматривать x_1, x_2,… x_n как константу, поскольку это наши наблюдаемые данные, которые не могут измениться.

Из теории вероятностей мы знаем, что вероятность того, что все произойдет несколько независимых событий, называется совместной вероятностью. Мы можем рассматривать каждую точку данных как одно событие; поэтому мы можем рассматривать наблюдение за нашим точным набором данных как серию событий, и мы можем применить совместную плотность вероятности следующим образом:

Помните, цель состоит в том, чтобы максимизировать этот член плотности вероятности путем нахождения оптимального θ. Чтобы обозначить это математически, мы можем сказать, что ищем «argmax» этого члена относительно θ:

Поскольку мы ищем максимальное значение, наша интуиция в расчетах должна подсказывать нам, что пора взять производную по θ и установить этот производный член равным нулю, чтобы найти положение нашего пика вдоль оси θ. Таким образом, мы можем приравнять argmax члена совместной плотности вероятности к сценарию, когда производная члена совместной плотности вероятности по θ равна нулю, как показано ниже:

Единственная проблема в том, что эту производную не так просто вычислить или приблизить. К счастью, в этом сценарии мы можем применить простой математический трюк, чтобы упростить вывод. Фактически мы можем изменить член производной, используя монотонную функцию, что упростит вычисление производной без изменения конечного результата. Монотонная функция - это любое отношение между двумя переменными, сохраняющее исходный порядок. Монотонная функция либо всегда возрастает, либо всегда убывает, поэтому производная монотонной функции никогда не может менять знаки. Монотонная функция, которую мы здесь будем использовать, - это натуральный логарифм, обладающий следующим свойством (доказательство не прилагается):

Итак, теперь мы можем написать нашу проблему следующим образом. Обратите внимание, что равенство между третьим и четвертым членами ниже - это свойство, доказательство которого явно не показано.

Почему мы можем использовать этот трюк с натуральным бревном? Из-за монотонно возрастающей природы натурального логарифма, получение натурального логарифма нашего первоначального члена плотности вероятности не повлияет на argmax, который является единственной метрикой, которая нас здесь интересует. Конечно, это изменяет значения нашего члена плотности вероятности, но не меняет положение глобального максимума относительно θ. Математически мы можем записать эту логику следующим образом:

Чтобы дополнительно продемонстрировать эту концепцию, вот несколько функций, нанесенных на график рядом с их естественными логарифмами (пунктирными линиями), чтобы показать, что положение максимумов по оси x одинаково для функции и натурального логарифма функции, несмотря на максимальное значение. сами значения существенно различаются.

Вертикальные пунктирные черные линии демонстрируют совмещение максимумов между функциями и их естественными логарифмами. Эти линии нарисованы на значениях argmax. Как мы уже заявляли, эти значения одинаковы для функции и натурального логарифма функции. Вот почему мы можем использовать наш трюк с естественным логарифмом в этой задаче.

Вернемся к проблеме, у нас есть:

Мы хотим решить для θ, чтобы получить наши оптимальные параметры, которые наилучшим образом соответствуют нашим наблюдаемым данным гауссовой кривой. Теперь давайте подумаем о двух параметрах, которые мы хотим вывести, μ и σ, а не о символическом представлении θ. Перейдем к обозначению градиента:

Начнем с градиента по μ. Для этого мы заменим PDF нормального распределения на f (x_i | μ, σ):

Используя свойства натурального журнала, не доказанные здесь, мы можем упростить это следующим образом:

Дальше,

Приравнивая этот последний член к нулю, мы получаем решение для μ следующим образом:

Мы видим, что наше оптимальное μ не зависит от нашего оптимального σ. А теперь мы найдем σ, взяв градиент относительно σ аналогичным образом:

Приравнивая этот последний член к нулю, мы получаем решение для σ следующим образом:

И вот оно. Наши оптимальные значения μ и σ должны выглядеть хорошо знакомыми, если мы недавно проводили какую-либо статистику. Эти параметры вычисляются по тем же формулам, которые мы используем для расчета среднего и стандартного отклонения. Это не просто совпадение. Это свойство нормального распределения, которое выполняется при условии, что мы можем сделать i.i.d. предположение.

Но ключом к пониманию MLE здесь является представление о μ и σ не как о среднем и стандартном отклонении нашего набора данных, а скорее как о параметрах гауссовой кривой, которая имеет самая высокая вероятность соответствия нашему набору данных. Такой образ мышления пригодится, когда мы применим MLE к байесовским моделям и распределениям, где вычисление оценок центральной тенденции и дисперсии не так интуитивно понятно.