Логистическая регрессия - геометрическая интерпретация
Что такое логистическая регрессия?
Это математическая модель, используемая для прогнозирования вероятности возникновения события с учетом некоторых обучающих данных.
Логистическая регрессия работает с двоичными данными 0 (когда событие происходит) и 1 (когда событие не происходит).
Этот пост подробно объясняет геометрическое значение логистической регрессии и то, как правильно выбрать классификационную плоскость.
Логистическая регрессия подразумевает отделение положительных точек класса от точек отрицательного класса плоскостью / линией.
Логистическая регрессия подразумевает, являются ли данные линейно или почти линейно разделяемыми или нет.
Уравнение плоскости- y = wTx + b. Здесь wT означает w (транспонирование).
Где b - точка пересечения, а w - нормаль к плоскости.
Если плоскость проходит через начало координат, то b = 0, это означает wTx = 0.
Следовательно, уравнение плоскости, проходящей через начало координат, - ›wTx = 0
Допущение. Классы почти или совершенно линейно разделяются.
Задача - найти плоскость, которая лучше всего отделяет положительные точки от отрицательных.
Расстояние любой точки xi от плоскости (𝜋) равно
di = wTxi / || w || ; w - нормаль к плоскости
Если w - единичный вектор, это означает || w || = 1
di = wTxi
Красные точки обозначают y = + 1
Зеленые точки обозначают y = -1
di = wTxi
dj = wTxj
Здесь w и xi указывают в одном направлении
Следовательно, wTxi ›0 → di› 0
Аналогично w и xj указывают в противоположном направлении, поэтому
wTxj ‹0 → dj‹ 0
Каждая точка в том же направлении, что и w (плоскость), - это положительные точки, а каждая точка в противоположном направлении плоскости - отрицательные точки.
Как работает классификатор?
wTxi ›0, тогда yi = + 1
wTxi ‹0, тогда yi = -1
Поверхность принятия решения - линия или плоскость.
Классификатор yiwTxi ›0
Случай 1: когда yi = + 1 и wTxi ›0
Тогда w (т.е. плоскость) правильно классифицирует точку
Случай 2: когда yi = -1 и wTxi ‹0
WTxi ‹0 означает, что xi - отрицательная точка
Сейчас yiwTxi ›0
Из случаев 1 и 2 мы знаем, что если yiwTxi ›0, то это означает, что логистическая регрессия правильно классифицирует точку.
Случай 3: yi = + 1
И wTxi ‹0
Тогда yiwTxi ‹0 Модель неверно классифицирует положительную точку.
Случай 4: y = -1
И wTxi ›0, затем yiwTxi‹ 0 Модель неверно классифицирует отрицательную точку
Из случаев 3 и 4 мы знаем, что если yiwTxi ‹0, то это означает, что логистическая регрессия неправильно классифицирует отрицательную точку.
Чтобы увидеть, как работает модель в целом, то есть для n точек в наборе данных
Макс ∑ yiwTxi от i = 1 до n.
Вышеприведенное уравнение - это проблема оптимизации.
Основная задача для выбора лучшей плоскости, которая наиболее правильно классифицирует точки, - это максимизировать сумму приведенного выше уравнения. Xi, yi - фиксированные точки, единственной переменной здесь является w (плоскость), которую можно изменять, чтобы максимизировать сумму.
Более того, сумма уравнения означает, что большее количество точек было правильно классифицировано.
Теперь мы знаем, что yiwTxi - это расстояние со знаком. (выводится в конце)
На сумму расстояний со знаком могут влиять выбросы в наборе данных.
Чтобы преодолеть влияние выбросов, нам нужно изменить задачу оптимизации с помощью Техники сжатия.
Сдавливание
Чтобы преодолеть влияние выбросов в наборе данных, мы будем использовать расстояние со знаком как есть, если оно мало, а если оно велико, сделайте его маленьким значением.
Итак, нам нужна функция, которая показывает такое поведение: когда значение маленькое, показывает линейное поведение, а когда значение велико, сужается.
Поведение сигмовидной функции такое же, как описано выше.
Теперь, если мы применим сигмовидную функцию к нашей задаче оптимизации.
Модифицированная задача оптимизации будет выглядеть так:
argmax (w) 1 / (1 + exp (-yiwTxi)) [для i = от 1 до n]
Таким образом, приведенное выше уравнение будет противодействовать влиянию выбросов.
Монотонные функции
Монотонные функции - это те, у которых g (x) увеличивается с увеличением x.
если g (x) монотонен, то
- argmin f (x) = argmin g (f (x))
- argmax f (x) = argmax g (f (x))
Теперь log - монотонная функция и log (1 / x) = -log (x)
подразумевающий журнал по проблеме оптимизации- ›
W * = argmax (w) log ((1/1 + exp (-yiwTxi)))
W * = argmax (w) -log (1 + exp (-yiwTxi))
= ›W * = argmin (w) log (1 + exp (-ywTxi))
= ›W * = argmin (w) log (exp (-yiwTxi))
= ›W * = argmin (w) (-yiwTxi)
= ›W * = argmax (w) (yiwTxi) т.е. сумма расстояний со знаком
Ссылки
- Курс прикладного искусственного интеллекта
- Википедия
Спасибо за прочтение :)