Объяснение логистической регрессии: часть 1

Это серия статей, в которых поэтапно рассматривается логистическая регрессия.

Фундаментальная идея, почему мы ищем логистическую регрессию, заключается в следующем:

· Модаl вероятность наступления события в зависимости от значений независимых переменных, которые могут быть категориальными или числовыми.

· Оцените вероятность того, что событие произойдет случайно выбранное наблюдение по сравнению с вероятностью того, что событие не произойдет.

· Прогнозировать влияние ряда переменных на переменную бинарного ответа.

· Классификация наблюдений путем оценки вероятности того, что наблюдение относится к определенной категории.

Почему другие процедуры регрессии не будут работать:

· Простая линейная регрессия – это одна качественная переменная, предсказывающая другую.

· Множественная регрессия — это расширение линейной регрессии с большим количеством переменных.

Моделирование линейной регрессии таким же образом должно решить следующие проблемы:

· Двоичные данные не имеют нормального распределения, которое является условием, необходимым для большинства других типов регрессии.

· Прогнозируемое значение зависимой переменной может быть за пределами 0 и 1, что нарушает основную теорему вероятности.

Далее давайте посмотрим на основы вероятности…..

P = (интересующие результаты) / (все возможные результаты)

Вероятность подбрасывания правильной монеты => P (орел) = P (решка) = 1/2 = 0,5.

Вероятность выпадения правильного кубика => p(1)=P(2)….P(6)=1/6

Вероятность вытащить алмазную карту = P(алмазная карта) = 13/52 = 1/4 = 0,25.

Глядя на то, каковы шансы-

Вероятность наступления события / вероятность того, что событие не произойдет.

Шансы = P (выпадает) / P (не выпадает)

Шансы = p/(1-p)

Отношение шансов - отношение двух шансов

=›Шансы (событие 1)/Шансы (событие 2)

Например. Событие 1 бросает несимметричную монету с P(орел)=0,75, затем P(решка)=0,25, а событие 2 бросает правильную монету и

Шансы (событие 1) = 0,75/0,25

Шансы (событие2) = 0,5/0,5

Отношение шансов => Шансы (событие 1) = 0,75/0,25

Шансы(событие2) 0,5/0,5

Отношение шансов = (0,75/0,25)/(0,5/0,5)= 3

Что означает отношение шансов в логистической регрессии?

Отношение шансов для переменной в логистической регрессии представляет собой изменение шансов при изменении независимой переменной на 1 единицу при неизменности всех остальных переменных.

Например, Целью исследования является выяснить, как связаны масса тела и расстройство сна. В примере переменная «вес» имеет отношение шансов 1,05.

Это означает, что увеличение веса на «1» фунт увеличивает вероятность «расстройства сна» на 1,07.

Точно так же увеличение веса на «10 фунтов» увеличивает шансы до 1,97, то есть почти удваивает шансы человека иметь «расстройство сна».

Эти шансы увеличиваются с одинаковой скоростью независимо от их начального веса и диапазона веса.

Однако вероятность «расстройства сна» НИЖЕ у людей с более низкой массой тела. Таким образом, хотя шансы выше, вероятность все еще может быть низкой. Шансы могут иметь большую величину, даже если основные вероятности низки.

Распределение Бернулли:

- Зависимая переменная в логистической регрессии следует распределению Бернулли с неизвестной вероятностью «p».

Помните, что распределение Бернулли — это частный случай биномиального распределения, где n = 1.

Вероятность успеха = p, Вероятность неудачи = q = 1-p

Шансы (успех) = p/q.

В логистической регрессии мы оцениваем неизвестное «p» для любой заданной линейной комбинации независимых переменных.

Таким образом, связывая независимые переменные по существу с распределением Бернулли (логит-функция).

Что такое логит??

В логистической регрессии мы не знаем «p», как в задачах распределения Бернулли. Целью логистической регрессии является оценка «p» для линейной комбинации независимых переменных (p).

Чтобы связать воедино нашу линейную комбинацию переменных и, по сути, распределение Бернулли, нам нужна функция, которая связывает их вместе или отображает линейную комбинацию переменных, которая может привести к любому значению, на распределение вероятностей Бернулли с диапазоном (от 0 до 1). Натуральный логарифм отношения шансов — это «логит-функция».

ln(шансы) =› ln(p/1-p) = logit(p)

Когда p = 0, ln (0) = не определено

р = 1, пер(1/0)=не определено

p=0.5, ln(0.5/0.5) = 0.

При p = 0,5 кривая пересекает ось y.

Эта кривая называется сигмовидной кривой.

На графике логит-связей от 0 до 1 проходит по оси x, но мы хотим, чтобы вероятности были по оси y. Мы можем добиться этого, взяв обратную функцию логита.

logit-1(α) = 1/1+e- α = e-α / 1+ e-α , где α = число.

В нашем случае α будет некоторым числом, которое будет линейной комбинацией переменных и их коэффициентов. Обратный логит fn вернет вероятность быть «1» или в случае возникновения группы.

Ее также иногда называют средняя функция.

µy|x = 1/1+e- α = e-α / 1+ e-α

Коэффициенты регрессии для логистической регрессии рассчитываются с использованием «оценки максимального правдоподобия» или (MLE).

Мы обсудим уравнение логистической регрессии в следующей статье.