Ключевая прикладная интуиция для специалистов по данным

Это мои сводные заметки по теории логистической регрессии, предназначенные для практиков в области науки о данных. Я объясняю, когда и почему использовать логистическую регрессию, ключевую математическую теорию и как интерпретировать результаты модели и оценки коэффициентов для заинтересованных сторон.

Оглавление

  • 1) Что такое логистическая регрессия?
  • 2) Когда следует использовать логистическую регрессию?
  • 3) Почему мы используем логистическую регрессию?
  • 4) Ключевая математическая интуиция
  • 5) Логистическая регрессия как GLM
  • 6) Модельные предположения

1. Что такое логистическая регрессия?

Логистическая регрессия - это преобразование модели линейной регрессии, которое позволяет нам вероятностно моделировать двоичные переменные. Она также известна как обобщенная линейная модель, использующая логит-ссылку.

2. Когда следует использовать логистическую регрессию?

Если вы хотите смоделировать двоичные данные: Логистическая регрессия является подходящей моделью для этого варианта использования. Он моделирует вероятность того, что наблюдение принимает одно из этих двух значений. (Примечание: модель предсказывает только вероятность, а не класс. Ваш выбор порога принятия решения зависит от варианта использования.)

Когда вам нужны предсказания вероятности класса, а не только предсказания класса, как в SVM. Это позволяет вам оценить уверенность вашей модели в ее прогнозах и поэкспериментировать с порогами решения класса.

Если вам нужна интерпретируемая модель: логистическая регрессия - идеальный вариант модели, когда вам нужно объяснить влияние каждого предиктора. Коэффициенты предсказателя количественно определяют влияние каждой функции на прогнозы вашей модели с помощью отношения шансов.

Когда граница принятия решения является гладкой и линейной. Логистическая регрессия рисует гладкую, линейную границу принятия решения между двумя классами. Таким образом, если ваши классы линейно разделимы (вы можете разделять точки в n-мерном пространстве, используя измерения n - 1), логистическая регрессия будет работать очень хорошо. Вы также можете проверить линейную разделимость, используя машину линейных опорных векторов.

Когда не следует использовать логистическую регрессию

  • Если ваши данные нельзя разделить линейно: если вы считаете, что это так, рассмотрите возможность использования опорных векторных машин со сложными ядрами или древовидных методов для классификации.
  • Когда ваша цель - в первую очередь производительность. Логистическая регрессия - это относительно простая модель, которая, как правило, уступает более сложным моделям. Если ваша цель заключается в первую очередь в точности прогнозов, а не в интерпретации модели, улучшенные деревья или нейронные сети могут быть лучшим выбором.

3. Почему мы используем логистическую регрессию?

Мы используем логистическую регрессию, потому что линейная регрессия не подходит для моделирования двоичных результатов. Вот две причины, почему:

  1. Линейная модель делает непрерывные неограниченные прогнозы. В бинарной классификации нас интересует вероятность наступления результата, поэтому нам нужны прогнозы, ограниченные от 0 до 1.
  2. Прогнозирование бинарных результатов с помощью линейной модели нарушает предположение о нормальных остатках, искажая выводы, сделанные по коэффициентам регрессии.

Вот почему была разработана логистическая регрессия.

4. Ключевая математическая интуиция

Стандартная логистическая функция (или сигмовидная функция)

Пусть z - любое непрерывное значение с областью определения (-∞, ∞). Если вы подключите z к сигмоидной функции, например

приятным свойством вывода является то, что он всегда находится в пределах от 0 до 1.

Вот некоторые свойства θ (z):

  1. Когда z = 0, θ = 0,5

2. Если z очень велико, θ составляет приблизительно 1

3. Когда z очень мало / отрицательно, θ приблизительно равно 0.

Мы можем использовать сигмовидную функцию для преобразования непрерывного неограниченного вывода z в десятичное число θ ∈ (0,1), что удобно для представления вероятностей.

Преобразование выходных данных линейной регрессии в выходные данные логистической регрессии с помощью сигмоидной функции

Чтобы перейти от линейной регрессии к логистической регрессии, вы можете заменить результат OLS

для z вот так:

Эта функция интерпретирует результат OLS как вероятность. Приведенная выше формула представляет собой результат модели логистической регрессии.

Математические свойства логистической регрессии

Мы поэкспериментируем с приведенным выше уравнением, выделив член y. С некоторой базовой алгеброй мы переходим от

to

Мы можем сделать замену в определении термина y сверху, дав следующее:

Возведя в степень обе части этого уравнения, мы также получим следующее уравнение

Условия, которые необходимо знать:

Значение отношения шансов определяется как вероятность успеха по сравнению с вероятностью неудачи. Это еще один способ представления вероятности и ключ к интерпретации коэффициентов логистической регрессии.

Отношение шансов 1 означает, что вероятность успеха равна вероятности неудачи. Отношение шансов 2 означает, что вероятность успеха в два раза больше, чем вероятность неудачи. Отношение шансов 0,5 означает, что вероятность неудачи в два раза больше вероятности успеха.

logit также известен как журнал шансов. Он отображает вероятности из (0, 1) в непрерывные значения (-∞, ∞). Тем самым создается связь между независимыми переменными и распределением Бернулли.

Два основных замечания по этим условиям

  1. В логистической регрессии логит должен быть линейно связан с независимыми переменными. Это следует из уравнения A, где левая часть представляет собой линейную комбинацию x. Это аналогично предположению OLS о том, что y линейно связано с x.
  2. Если вы увеличите независимую переменную x_i на 1, ваши шансы возрастут в exp (β_i). Это следует из уравнения Б.

Пункт (2) следует из приведенной ниже алгебры:

Допустим, мы хотим увеличить x_i на 1:

Тогда шансы на успех увеличиваются в exp (β_i).

Повторяю, в логистической регрессии изменение на одну единицу x_i приводит к изменению коэффициентов exp (β_i). Аналогично изменение на одну единицу x_i приводит к β_i изменению y в линейной регрессии.

5. Логистическая регрессия как GLM

Три компонента GLM:

  • Случайный компонент: распределение вероятностей переменной результата Y.
  • Систематический компонент: определяет параметр η как линейную комбинацию независимых переменных: η =
  • Функция связи: функция g, которая связывает (связывает) случайные и систематические компоненты, в частности, она связывает E (Y) = от μ до η вот так: g (μ) = η

В терминах обобщенной линейной модели Y в логистической регрессии следует биномиальному распределению. В логистической регрессии функция ссылки является функцией логита, поэтому

а также

Здесь μ представляет собой среднее значение биномиальной случайной величины с одним испытанием - это распределение Бернулли. Таким образом, μ - это просто вероятность успеха.

Случайный компонент логистической регрессии - это случайная величина Бернулли. Я настоятельно рекомендую вам проверить this, чтобы получить больше информации о концепциях GLM.

6. Допущения логистической регрессии.

  • Зависимая переменная является двоичной. Если это не так, выходные данные логистической регрессии не применяются.
  • Линейность между логит и независимыми переменными: Это следует из уравнения A - если это условие не выполняется, логистическая регрессия недействительна.
  • Отсутствие мультиколлинеарности: мультиколлинеарность искажает тесты статистической значимости коэффициентов регрессии.
  • Большой размер выборки. Это скорее практическое правило.

Приятно иметь здесь то, что ваши данные имеют сбалансированное количество классов.

Допущения OLS, неприменимые к логистической регрессии

  • Линейность между зависимыми и независимыми переменными
  • Нормальные остатки
  • Гомоскедастичность

Спасибо за чтение. Есть мысли или отзывы? Комментарий ниже!