Максимум правдоподобия

Упрощенная сложная тема

Резюме

В этой статье сначала будет продемонстрирована оценка максимального правдоподобия (MLE) на простом примере. Затем мы построим первый пример, подгоняющий модель логистической регрессии с использованием MLE. Поняв эти два примера, вы получите базовые знания для использования любых других обобщенных линейных моделей (GLM).

Примечание

В следующих примерах я раскатываю никель по плоской поверхности, пока он не упадет влево или вправо. В первом примере мы будем использовать «честную» невзвешенную монету. Во втором примере мы добавим веса монетам любого размера.

Пример 1 - Честный никель

Если бы мы катали честный никель по плоской поверхности 10 раз, можно было бы ожидать, что у него будут равные шансы (p = 0,5) упасть слева направо. В нашем примере:

Падение вправо - положительный случай (y = 1, p = 0,5)
Падение влево - отрицательный случай (y = 0, p = 0,5)

За 10 бросков монета упала 5 раз вправо (y = 1) и 5 раз влево (y = 0). Это то, что мы ожидали, так как монета честная. Ниже представлена таблица из 10 рулонов:

Какое значение p (вероятность) максимизирует вероятность результатов?

Я знаю, что знаю - это слишком просто p = 0,5, но потерпите меня - если вы поймете, как получить максимальное правдоподобие на очень простом примере, концепция легко перерастет в более сложные проблемы.

Во-первых, давайте воспользуемся распределением Бернулли, поскольку оно лучше всего представляет наши данные.

Функция правдоподобия - это совместное распределение вероятностей (умножение) PMF для каждого наблюдения. Мы просто перемножаем все PMF вместе

Что можно переписать как:

Мы хотим максимизировать эту функцию. Вместо того, чтобы проводить вычисления, чтобы выяснить это, давайте поиграемся с разными значениями p, чтобы увидеть, как они влияют на вероятность. Вы можете попробовать это с помощью этой книги (вкладка: fair_coin).

Как и ожидалось, мы могли бы максимизировать вероятность, присвоив вероятность p = 0,5.

Теперь, когда у нас есть основы, давайте перейдем к более сложному примеру.

Пример 2 - Утяжеленный никель

Давайте снова сделаем 10 рулонов, за исключением того, что на этот раз нам сказали, что никель перед каждым рулоном модифицируется весом (w). Отрицательный w означает, что вес находится на левой стороне монеты, а положительный w означает, что вес находится на правой стороне.

Ниже представлена таблица результатов для 10 валков. Я заполнил столбцы «desc», чтобы облегчить чтение таблицы. Например, первое наблюдение имеет вес (-1,0) с левой стороны, а монета упала слева.

Глядя на данные, мы можем увидеть взаимосвязь между величиной и стороной веса монеты и направлением падения. Самый тяжелый груз по обе стороны от монеты тянет ее вниз в этом направлении. В первом примере не было весов, поэтому у нас не было дополнительной информации для моделирования поведения. В этом случае мы хотим использовать эту дополнительную информацию (вес) для определения прогнозируемых вероятностей.

Давайте сначала вручную назначим предсказанные вероятности каждому из наших результатов, чтобы увидеть, как они соотносятся с PMF и вероятностью. Мы будем использовать те же концепции, что и в первом примере, показанном здесь:

Я создал таблицу Google (вкладка: weighted_coin), чтобы вы могли изучить эти отношения.

В левой таблице я установил для всех прогнозируемых вероятностей 0,1, в правой - 0,9. Что вы заметили о величине PMF, когда y = 0 (отрицательный) случай и прогнозируемая вероятность также мала p = 0,1?

Затем, что вы заметите, когда y = 1 (положительный результат) и прогнозируемая вероятность высока, p = 0,9?

Проверьте обратное в обоих случаях. (y = 1, p = 0,1), (y = 0, p = 0,1)

Как видите, самые высокие значения PMF достигаются, когда мы назначаем наивысшие вероятности положительным случаям и наименьшие вероятности отрицательным случаям. Обратите внимание, что вероятность, указанная внизу, одинакова для обоих случаев - пока что она не так уж велика.

Теперь давайте назначим высокую вероятность положительным случаям, а низкую - отрицательным, и посмотрим, что произойдет. Теперь посмотрите на значения PMF. Посмотрите, насколько увеличилась вероятность внизу!

По сути, так работает логистическая регрессия. Алгоритм пытается максимизировать вероятность (назначить высокие прогнозируемые вероятности (p) для положительных случаев и низкие прогнозируемые вероятности (p) для отрицательных случаев) подгонки распределения Бернулли (продукт наших PMF) путем подбора неизвестных параметров (наклон и точка пересечения). определить p). Вот как он разделяет классы.

Давайте воспользуемся логистической регрессией с нашим новым весом переменной, чтобы помочь нам предсказать вероятности.

Вместо того, чтобы использовать исчисление для решения, давайте решим его вручную. Я создал электронную таблицу (вкладка: fit_logistic), которая позволяет вам изменять точку пересечения и наклон, а также вычислять прогнозируемые вероятности и правдоподобия. Посмотрите, сможете ли вы определить точку пересечения и наклон, которые увеличивают вероятность. Вот как выглядит таблица:

Если вы поиграете с наклоном и пересечением, вы обнаружите, что максимальная вероятность достигается в районе пересечения = 0 и наклона = 3. Я говорю «примерно», потому что мы не делаем всех точных вычислений.

То, как вы экспериментировали с наклоном и пересечением, - это, по сути, то, как программное обеспечение вычисляет максимальную вероятность с двумя основными исключениями:

Функция правдоподобия преобразуется в лог (вероятность)
Программное обеспечение знает, в каком направлении корректировать наклон и пересечение на каждой итерации, известной как градиентный спуск (или подъем).

Я призываю вас продолжить изучение этих тем, но это выходит за рамки данной статьи.

Хорошо, вернемся к нашему примеру

Что означает intercept = 0?

Перехват = 0 означает, что когда вес = 0 (у нас нет веса по обе стороны от монеты) логарифм (шансы) положительного случая (монета падает вправо) равно нулю. Задумайтесь об этом на секунду. В этом есть смысл. Поскольку w = 0, мы знаем, что это честная монета, и из предыдущих примеров мы определили, что вероятность ее падения с обеих сторон составляет 50%. Вот математика, подтверждающая, что p = 0,5, когда логарифм (шансы) = 0.

Что означает наклон = 3?

Наклон веса равен 3. Это означает, что для каждой единицы веса, добавленной к правой стороне монеты, логарифм (шансы) падения монеты вправо увеличивается на 3. Я оставлю это на ваше усмотрение, чтобы преобразовать это обратно в вероятность.

Подводя итог:

Мы максимизировали вероятность (высокий прогноз p для положительных случаев, низкий прогноз p для отрицательных случаев) подбора распределения Бернулли (продукт наших PMF) с помощью подгонка неизвестных параметров (угол наклона и точка пересечения определяют p). Это оценка максимального правдоподобия.

Общие линейные модели

Мы можем использовать тот же шаблон, который мы только что узнали, для соответствия другим обобщенным линейным моделям. Ключевое отличие состоит в том, что вы собираетесь использовать другой дистрибутив.

Например, в линейной регрессии мы могли бы максимизировать вероятность подгонки нормального распределения путем подбора неизвестных параметров (наклон и пересечение определяют среднее значение). Дополнительные сведения о MLE для линейной регрессии см. В этой статье.

Максимум правдоподобия - легкий путь