Логистическая регрессия - геометрическая интерпретация

Что такое логистическая регрессия?

Это математическая модель, используемая для прогнозирования вероятности возникновения события с учетом некоторых обучающих данных.

Логистическая регрессия работает с двоичными данными 0 (когда событие происходит) и 1 (когда событие не происходит).

Этот пост подробно объясняет геометрическое значение логистической регрессии и то, как правильно выбрать классификационную плоскость.

Логистическая регрессия подразумевает отделение положительных точек класса от точек отрицательного класса плоскостью / линией.

Логистическая регрессия подразумевает, являются ли данные линейно или почти линейно разделяемыми или нет.

Уравнение плоскости- y = wTx + b. Здесь wT означает w (транспонирование).

Где b - точка пересечения, а w - нормаль к плоскости.

Если плоскость проходит через начало координат, то b = 0, это означает wTx = 0.

Следовательно, уравнение плоскости, проходящей через начало координат, - ›wTx = 0

Допущение. Классы почти или совершенно линейно разделяются.

Задача - найти плоскость, которая лучше всего отделяет положительные точки от отрицательных.

Расстояние любой точки xi от плоскости (𝜋) равно

di = wTxi / || w || ; w - нормаль к плоскости

Если w - единичный вектор, это означает || w || = 1

di = wTxi

Красные точки обозначают y = + 1

Зеленые точки обозначают y = -1

di = wTxi

dj = wTxj

Здесь w и xi указывают в одном направлении

Следовательно, wTxi ›0 → di› 0

Аналогично w и xj указывают в противоположном направлении, поэтому

wTxj ‹0 → dj‹ 0

Каждая точка в том же направлении, что и w (плоскость), - это положительные точки, а каждая точка в противоположном направлении плоскости - отрицательные точки.

Как работает классификатор?

wTxi ›0, тогда yi = + 1

wTxi ‹0, тогда yi = -1

Поверхность принятия решения - линия или плоскость.

Классификатор yiwTxi ›0

Случай 1: когда yi = + 1 и wTxi ›0

Тогда w (т.е. плоскость) правильно классифицирует точку

Случай 2: когда yi = -1 и wTxi ‹0

WTxi ‹0 означает, что xi - отрицательная точка

Сейчас yiwTxi ›0

Из случаев 1 и 2 мы знаем, что если yiwTxi ›0, то это означает, что логистическая регрессия правильно классифицирует точку.

Случай 3: yi = + 1

И wTxi ‹0

Тогда yiwTxi ‹0 Модель неверно классифицирует положительную точку.

Случай 4: y = -1

И wTxi ›0, затем yiwTxi‹ 0 Модель неверно классифицирует отрицательную точку

Из случаев 3 и 4 мы знаем, что если yiwTxi ‹0, то это означает, что логистическая регрессия неправильно классифицирует отрицательную точку.

Чтобы увидеть, как работает модель в целом, то есть для n точек в наборе данных

Макс ∑ yiwTxi от i = 1 до n.

Вышеприведенное уравнение - это проблема оптимизации.

Основная задача для выбора лучшей плоскости, которая наиболее правильно классифицирует точки, - это максимизировать сумму приведенного выше уравнения. Xi, yi - фиксированные точки, единственной переменной здесь является w (плоскость), которую можно изменять, чтобы максимизировать сумму.

Более того, сумма уравнения означает, что большее количество точек было правильно классифицировано.

Теперь мы знаем, что yiwTxi - это расстояние со знаком. (выводится в конце)

На сумму расстояний со знаком могут влиять выбросы в наборе данных.

Чтобы преодолеть влияние выбросов, нам нужно изменить задачу оптимизации с помощью Техники сжатия.

Сдавливание

Чтобы преодолеть влияние выбросов в наборе данных, мы будем использовать расстояние со знаком как есть, если оно мало, а если оно велико, сделайте его маленьким значением.

Итак, нам нужна функция, которая показывает такое поведение: когда значение маленькое, показывает линейное поведение, а когда значение велико, сужается.

Поведение сигмовидной функции такое же, как описано выше.

Теперь, если мы применим сигмовидную функцию к нашей задаче оптимизации.

Модифицированная задача оптимизации будет выглядеть так:

argmax (w) 1 / (1 + exp (-yiwTxi)) [для i = от 1 до n]

Таким образом, приведенное выше уравнение будет противодействовать влиянию выбросов.

Монотонные функции

Монотонные функции - это те, у которых g (x) увеличивается с увеличением x.

если g (x) монотонен, то

  1. argmin f (x) = argmin g (f (x))
  2. argmax f (x) = argmax g (f (x))

Теперь log - монотонная функция и log (1 / x) = -log (x)

подразумевающий журнал по проблеме оптимизации- ›

W * = argmax (w) log ((1/1 + exp (-yiwTxi)))

W * = argmax (w) -log (1 + exp (-yiwTxi))

= ›W * = argmin (w) log (1 + exp (-ywTxi))

= ›W * = argmin (w) log (exp (-yiwTxi))

= ›W * = argmin (w) (-yiwTxi)

= ›W * = argmax (w) (yiwTxi) т.е. сумма расстояний со знаком

Ссылки

  1. Курс прикладного искусственного интеллекта
  2. Википедия

Спасибо за прочтение :)