Все модели ошибочны, но некоторые из них полезны

Два основных столпа контролируемого статистического обучения — Регрессия и Классификация. Простая линейная регрессия и логистическая регрессия — вот с чего многие из нас начали свой путь в статистике и науке о данных. До сих пор ведутся давние споры о том, почему логистическая регрессия является моделью классификации, а не моделью регрессии?

Здесь мы возвращаемся к логистической регрессии с интуитивной точки зрения наряду со статистической строгостью. Мы кратко коснемся концепций, лежащих в основе обобщенной линейной модели, а также опционального раздела, посвященного итеративным методам наименьших квадратов с повторным взвешиванием (IRLS), чтобы соответствовать этим моделям.

Введение

Статистики любят линейные модели, поверьте мне, когда я это говорю. Они могут зайти настолько далеко, насколько это возможно, чтобы навязать линейность. Позвольте мне привести вам пример, когда я был особенно потрясен на моих занятиях по линейной статистической модели, где мы изучали модели ANOVA. Мой профессор сказал, что когда мы подгоняем эту модель с учетом возможности взаимодействия между двумя факторами, если нет статистически значимого взаимодействия, мы будем двигаться дальше (т.е. анализировать разбивку суммы квадратичных ошибок, игнорируя член взаимодействия, который разрушает линейность) но если есть значительное взаимодействие, то мы не можем двигаться дальше, и наш анализ останавливается на этом.

Но почему они так любят линейность? Ключом является интерпретируемость, когда мы можем определить влияние на переменную отклика из-за каждого конкретного входного фактора или ковариации по отдельности. Чем более нелинейную модель мы выбираем, тем более гибкими будут эти модели и лучше они будут соответствовать нашим данным за счет интерпретируемости. Это часто желательно для моделирования многих реальных ситуаций и учета компромисса между интерпретируемостью и гибкостью или компромиссом смещения и дисперсии. Здесь мы узнаем о расширении линейной модели, широко известном как обобщенные линейные модели.

Давайте начнем…

Логистическая регрессия

В этом разделе я проведу вас через интуицию, лежащую в основе логистической регрессии. Рассмотрим классический сценарий, в котором у вас есть следующие данные

где X — объясняющая переменная, скажем, количество ядовитого газа, выделяющегося в закрытой камере, а y — бинарная с.в. указывая, жив ли кот в камере или мертв. Думаю, ситуация должна быть очень знакомой. Предположим, что кошка умирает мгновенно, когда в камеру вводят X количества газа.

Почему мы не можем смоделировать эту ситуацию с помощью простой линейной регрессии? Предполагать,

Если мы подойдем к приведенной выше модели, мы получим следующее

Осмотр точки Х = 10, т.е. введенное 10 единиц ядовитого газа позволит живому состоянию кота быть 1/2. Воля! Кот Шредингера в суперпозиции. К сожалению, даже если это возможно в квантовом мире, в классическом мире это невозможно и абсурдно. Нам нужно исправить.

Вышеупомянутые проблемы заключаются в том, что мы моделируем живой статус кошки, который является дискретным и бинарным, с линейной регрессией, которая не учитывает такие случаи, как большее количество ядовитого газа (см. На приведенной выше диаграмме, это приведет к отрицательному живому статусу). Таким образом, мы можем вместо этого смоделировать непрерывный ответ, например, вероятность того, что кошка жива.

Будет ли это делать? Поймите, что входная переменная может быть любым неотрицательным значением, поэтому это приведет к тому, что прогнозы вероятности ответа будут ниже 0 (и жизнь статистика будет ложью). Таким образом, нам нужна неограниченная переменная отклика для моделирования, которая обладает хорошим свойством непрерывности и имеет то же значение, что и вероятность остаться в живых. Вот где мы получаем шансы,

Выше все почти идеально, за исключением того, что у нас есть неограниченность только в одном направлении, но линейная модель может очень хорошо предсказывать отрицательные значения, как видно из диаграммы. Итак, нам на помощь приходит логарифм, который принимает любое действительное значение с учетом положительных значений.

Таким образом, имеет смысл смоделировать логит живого статуса кошки с помощью линейной модели, известной нам как логистическая регрессия.

Просто чтобы рассказать вам об одном из основных строительных блоков современной революции ИИ. Я перепишу приведенное выше выражение и представлю базовую единицу очень гибких моделей нейронных сетей — нейрон.

Вот так выглядит сигмовидная функция, которая поддерживает всю действительную строку и выводит значение от 0 до 1. Именно то, что нам нужно!

Теперь графическое изображение приведенного выше выражения дает нам самую маленькую в мире нейронную сеть, один нейрон (миллионы, миллиарды и даже триллионы этих цепочек вместе образуют глубокую модель - интерпретируемость RIP)

Наша модель логистической регрессии готова! Но как мы оцениваем параметры. Мы рассмотрим это ближе к концу. Давайте посмотрим на обобщенные линейные модели в следующем разделе и их связь с логистической регрессией.

Обобщенная линейная модель

Если мы разберем то, что мы сделали выше в логистической регрессии, получится следующее

Почему мы моделируем ожидаемое значение? Поскольку мы предполагаем, что фактический ответ является зашумленной версией фактического основного ответа, где ошибка/шум не могут быть смоделированы. В логистической регрессии выбор g был следующим:

Здесь линейный предиктор — это входные данные обратной функции g, которая обычно обозначается буквой eta. Функция g известна как Функция связи в литературе по GLM.

Для логистической регрессии распределение y | X было бернуллиевским. У нас может быть арсенал различных функций связи и распределений ответов, которые сочетаются друг с другом для учета широкого спектра реальных данных. В идеале дистрибутив должен быть из семейства Exponential.

Распространенным заблуждением является то, почему мы называем эту Обобщенную линейную модель, даже когда мы применяем нелинейность. Это связано с тем, что модель по-прежнему является линейной, но не со средним значением зависимой переменной, а с некоторой ее функцией, которая линейно связана. Мы предполагаем, что входные переменные влияют только через линейную функцию, то есть эта, линейный предиктор.

На самом деле линейная регрессия также является обобщенной линейной моделью, которая является первым примером в таблице выше с нормальным распределением ответов и функцией связи идентичности.

Почему желательна конкретная функция связи? (Необязательный)

Считается, что переменная отклика y принадлежит экспоненциальному семейству с плотностью

где,

Тета выше также известна как естественный или канонический параметр, а фи рассматривается как неприятность. Это довольно просто показать,

Теперь среднее значение, как упоминалось в начале раздела GLM, рассматривается как обратимая и гладкая функция линейного предиктора, т.е.

Функция ссылки, которая обычно предпочтительнее, — это каноническая функция ссылки, заданная как

Каноническая функция связи имеет несколько желаемых статистических свойств:

  • Это делает X’y достаточной статистикой для оцениваемых параметров.
  • Метод Ньютона и метод оценки Фишера для нахождения MLE совпадают.
  • Это упрощает вывод MLE.
  • Это гарантирует, что некоторые свойства линейной регрессии, такие как сумма остатков, равны 0, и гарантирует, что mu остается в диапазоне переменной результата.

Следует иметь в виду, что мы используем эту модель, когда эффекты могут быть аппроксимированы как аддитивные в масштабе, заданном канонической или любой другой функцией связи. Следующая диаграмма позволяет легко перейти от одного направления к другому

С канонической функцией ссылки у нас есть,

Гамма-функция известна как функция генерации совокупного момента. Функция связи связывает линейный предиктор со средним значением и должна быть монотонной, возрастающей, непрерывно дифференцируемой и обратимой.

Теперь в следующем разделе мы увидим, как подобрать модель логистической регрессии.

Подгонка логистической регрессии

Мы начнем с нахождения выражения правдоподобия для данных в рамках модели логистической регрессии, которая определяется как

Вероятности (члены числа пи), участвующие в приведенном выше выражении, задаются моделью логистической регрессии как

Теперь, чтобы упростить вероятность, мы возьмем логарифм и придем к следующему выражению для логарифмического правдоподобия:

Вышеупомянутая функция логарифмического правдоподобия должна быть максимизирована относительно. бета. Иногда это формулируется как проблема, в которой необходимо свести к минимуму отрицательное значение приведенного выше логарифмического правдоподобия, и называется потеря двоичной перекрестной энтропии (BCE).

Вышеупомянутая функция должна быть максимизирована, и мы можем принять одну из многих доступных нам стратегий,

  • Метод Ньютона-Рафсона
  • Метод оценки Фишера
  • Итеративный повторно взвешенный метод наименьших квадратов (IRLS)
  • Градиентный спуск при потере BCE

Обобщенные линейные модели обычно подбираются с использованием метода, называемого методом подсчета очков Фишера, путем повторения чего-то в форме,

Здесь 𝐽(𝑚) будет либо наблюдаемым, либо ожидаемым гессианом логарифмической вероятности на m-м шаге.

Вычисляя производную логарифмического правдоподобия, получаем следующее

где X - матрица плана со строками в качестве наблюдений и столбцами в качестве независимых переменных. Точно так же мы можем вычислить вторую производную следующим образом:

которые можно записать в консолидированном виде,

Создание промежуточной переменной отклика z позволяет нам представить метод оценки Фишера как IRLS, как показано ниже.

Это позволит нам исправить производную таким образом

что приводит к тому, что метод подсчета очков Фишера записывается следующим образом

Комментарии по конвергенции

Наконец, несколько быстрых замечаний о конвергенции. Несмотря на то, что теоретически каждый 𝐽(𝑚) является отрицательно определенным, плохие начальные условия могут помешать сходимости этого алгоритма. Если мы используем каноническую ссылку в алгоритме, мы никогда не будем делить на 𝑦̂ 𝑖(1−𝑦̂ 𝑖), чтобы получить неопределенные веса, но если у нас есть ситуация, когда некоторые 𝑦̂ 𝑖 приближаются к 0 или 1, например, в случае идеального разделения, то мы все равно получим несхождение, поскольку градиент умирает, а мы ничего не достигаем.

Приложение

Логистическая регрессия имеет различные приложения в реальном мире. Одним из наиболее привлекательных вариантов использования являются медицинские исследования, где желательна интерпретируемость по сравнению с другими. некоторые объясняющие переменные и состояние болезни у человека. Его также можно использовать для прогнозирования вероятности заболевания человека. Я работал над одной из таких задач прогнозирования болезни Альцгеймера и поиском ключевых объясняющих переменных. Ознакомьтесь с Отчетом о болезни Альцгеймера здесь и найдите код в репозитории здесь.