Итак, если я привлек ваше внимание, эта статья посвящена логистической регрессии. Мы поговорим о таких темах, как функция гипотез, граница решения, нелинейная граница решения, упрощенный градиентный спуск и расширенная оптимизация.
Логистическая регрессия - это один из алгоритмов, используемых для классификации. Это идеальный алгоритм для выполнения, когда зависимая переменная является двоичной. Имеется в виду, когда нам нужно выбирать из двух значений, будете ли вы выполнять задачу x или нет? Вот еще несколько примеров:
- Электронная почта: Спам / Хэм?
- Мошенничество с онлайн-транзакциями: да / нет?
- Тип опухоли: злокачественная / доброкачественная?
- Вы прочитаете эту статью: Да / Нет? и многое другое… ..
Этот тип классификации известен как двоичная классификация, поскольку у нас есть два значения на выбор (либо да, либо нет, либо 0 или 1), и они используют алгоритм градиентного спуска для определения оптимума.
Если y - наше выходное значение, оно должно быть представлено как: y ∈ {0,1}, где предположим, что 0 - отрицательный класс, а 1 - положительный класс. y может содержать несколько значений, y = {0,1,…, n}.
Таким образом, в условиях этого типа линейная регрессия неэффективна при классификации тестовых примеров.
Итак, нам нужна функция, которая классифицирует две ситуации, или:
0 ≤ h(x)≤1
Функция гипотезы:
h (x) = g [θ (транспонировать) * x]
где g (x) - «сигмовидная функция». Вы, должно быть, думаете, что такое сигмовидная функция и как она работает?
Сигмовидная функция также называется логистической функцией.
Вы можете видеть для значений x ›0, график показывает прогноз с вероятностью 0,5 и выше. Благодаря этому мы можем прояснить наши мысли о том, что логистическая регрессия идеально подходит для нас. Функция логистических затрат выглядит примерно так:
g(z) = 1 / 1 + e^(-z)
Вы можете построить аналогичную функцию и увидеть визуализацию, которая подтверждает приведенное выше уравнение.
Пусть h (x) = оценочная вероятность того, что y = 1 на входе x. Пример: проблема классификации опухолей.
x = [x; x1] (вектор) = [1; размер опухоли] (вектор)
ℏ (x) = 0,7 (при условии) или 70% вероятность того, что опухоль «злокачественная».
h (x) = P (y = 1 | x; θ) // Вероятность того, что y = 1 для данного x, параметризованного θ
Граница решения
«Граница решения - это территория проблемного пространства или область разделения независимых переменных.
Выше приведен пример границы линейного решения, а ниже - граница нелинейного решения.
Над границей решения изображена граница круга, т.е. (x-h) ² + (y-k) ² = r².
Примечание. Граница решения - это свойство функции гипотезы, а не обучающего множества.
Почему нельзя применить линейную регрессию?
Нам нужна функция, которая может сходиться к глобальным минимумам, и если мы построим для нее набор данных линейной регрессии, это приведет к невыпуклой функции, а Логистическая регрессия приведет к« выпуклой функции .
Функция гипотезы логистической регрессии:
Итак, наша функция теперь выглядит примерно так: -
Построим кривую log (x) и -log (x) по отдельности.
стоимость = 0, если y = 1, h (x) = 1
Но при h (x) → 0 стоимость → ∞
Улавливает интуицию, что если h (x) = 0, предсказать P (y = 1 | x; θ), но y = 1, очень дорого обойдется алгоритму обучения.
Упрощенный градиентный спуск
Стоимость (h (x, y)) = -y * log (h (x)) - (1-y) * log (1-h (x))
Докажем, что это уравнение эквивалентно предыдущей версии.
замените y = 1: cost = -log (h (x))
замените y = 0: cost = -log (1-h (x)).
Теперь наше новое уравнение будет:
- 1 / m * ∑ (i = от 1 до m) [y (i) * log h (xi) + (1-yi) * log (1-h (xi)]
Вы можете получить функцию стоимости из принципа оценки максимального правдоподобия.
Функция оптимизации:
θj = θj-α * (d / dθj), где (d / dθj) = 1 / m * ∑ (от i = 1 до m (h (xi) -yi) * (xj (i)).
Функция стоимости идентична функции стоимости линейной регрессии, но наша функция гипотезы h (x) отличается логистической регрессией.
Расширенные методы оптимизации:
Есть много функций оптимизации, помимо алгоритма градиентного спуска. Некоторые из них считаются:
Сопряженный градиент, алгоритм BFGS, L-BFGS.
Плюсы: нет необходимости вручную выбирать α (скорость обучения), быстрее, чем градиентный спуск, хорошо работает с огромными наборами данных.
Минусы: Более сложный в использовании.
Дополнительный
Мультиклассовая классификация: один против всех
Методы многоклассовой классификации используются для группировки ваших независимых переменных в единую сущность. бывший:
Папка / тегирование электронной почты: работа, семья, друзья, знакомые и т. Д.
Медицинские схемы: Не болен, простуда, грипп.
Погода: дождливая, пасмурная, снежная.
Классификацию «один против всех» иногда называют классификацией «один против остальных» или алгоритмом классификации нескольких классов.
да… Поздравляю! Теперь вы знаете логистическую регрессию и спасибо, что несли меня до конца. Не забудь похлопать и за эту статью, и за себя :)