Итак, если я привлек ваше внимание, эта статья посвящена логистической регрессии. Мы поговорим о таких темах, как функция гипотез, граница решения, нелинейная граница решения, упрощенный градиентный спуск и расширенная оптимизация.

Логистическая регрессия - это один из алгоритмов, используемых для классификации. Это идеальный алгоритм для выполнения, когда зависимая переменная является двоичной. Имеется в виду, когда нам нужно выбирать из двух значений, будете ли вы выполнять задачу x или нет? Вот еще несколько примеров:

  1. Электронная почта: Спам / Хэм?
  2. Мошенничество с онлайн-транзакциями: да / нет?
  3. Тип опухоли: злокачественная / доброкачественная?
  4. Вы прочитаете эту статью: Да / Нет? и многое другое… ..

Этот тип классификации известен как двоичная классификация, поскольку у нас есть два значения на выбор (либо да, либо нет, либо 0 или 1), и они используют алгоритм градиентного спуска для определения оптимума.

Если y - наше выходное значение, оно должно быть представлено как: y ∈ {0,1}, где предположим, что 0 - отрицательный класс, а 1 - положительный класс. y может содержать несколько значений, y = {0,1,…, n}.

Таким образом, в условиях этого типа линейная регрессия неэффективна при классификации тестовых примеров.

Итак, нам нужна функция, которая классифицирует две ситуации, или:

0 ≤ h(x)≤1

Функция гипотезы:

h (x) = g [θ (транспонировать) * x]

где g (x) - «сигмовидная функция». Вы, должно быть, думаете, что такое сигмовидная функция и как она работает?

Сигмовидная функция также называется логистической функцией.

Вы можете видеть для значений x ›0, график показывает прогноз с вероятностью 0,5 и выше. Благодаря этому мы можем прояснить наши мысли о том, что логистическая регрессия идеально подходит для нас. Функция логистических затрат выглядит примерно так:

g(z) = 1 / 1 + e^(-z)

Вы можете построить аналогичную функцию и увидеть визуализацию, которая подтверждает приведенное выше уравнение.

Пусть h (x) = оценочная вероятность того, что y = 1 на входе x. Пример: проблема классификации опухолей.

x = [x; x1] (вектор) = [1; размер опухоли] (вектор)

ℏ (x) = 0,7 (при условии) или 70% вероятность того, что опухоль «злокачественная».

h (x) = P (y = 1 | x; θ) // Вероятность того, что y = 1 для данного x, параметризованного θ

Граница решения

«Граница решения - это территория проблемного пространства или область разделения независимых переменных.

Выше приведен пример границы линейного решения, а ниже - граница нелинейного решения.

Над границей решения изображена граница круга, т.е. (x-h) ² + (y-k) ² = r².

Примечание. Граница решения - это свойство функции гипотезы, а не обучающего множества.

Почему нельзя применить линейную регрессию?

Нам нужна функция, которая может сходиться к глобальным минимумам, и если мы построим для нее набор данных линейной регрессии, это приведет к невыпуклой функции, а Логистическая регрессия приведет к« выпуклой функции .

Функция гипотезы логистической регрессии:

Итак, наша функция теперь выглядит примерно так: -

Построим кривую log (x) и -log (x) по отдельности.

стоимость = 0, если y = 1, h (x) = 1

Но при h (x) → 0 стоимость → ∞

Улавливает интуицию, что если h (x) = 0, предсказать P (y = 1 | x; θ), но y = 1, очень дорого обойдется алгоритму обучения.

Упрощенный градиентный спуск

Стоимость (h (x, y)) = -y * log (h (x)) - (1-y) * log (1-h (x))

Докажем, что это уравнение эквивалентно предыдущей версии.

замените y = 1: cost = -log (h (x))

замените y = 0: cost = -log (1-h (x)).

Теперь наше новое уравнение будет:

  • 1 / m * ∑ (i = от 1 до m) [y (i) * log h (xi) + (1-yi) * log (1-h (xi)]

Вы можете получить функцию стоимости из принципа оценки максимального правдоподобия.

Функция оптимизации:

θj = θj-α * ​​(d / dθj), где (d / dθj) = 1 / m * ∑ (от i = 1 до m (h (xi) -yi) * (xj (i)).

Функция стоимости идентична функции стоимости линейной регрессии, но наша функция гипотезы h (x) отличается логистической регрессией.

Расширенные методы оптимизации:

Есть много функций оптимизации, помимо алгоритма градиентного спуска. Некоторые из них считаются:

Сопряженный градиент, алгоритм BFGS, L-BFGS.

Плюсы: нет необходимости вручную выбирать α (скорость обучения), быстрее, чем градиентный спуск, хорошо работает с огромными наборами данных.

Минусы: Более сложный в использовании.

Дополнительный

Мультиклассовая классификация: один против всех

Методы многоклассовой классификации используются для группировки ваших независимых переменных в единую сущность. бывший:

Папка / тегирование электронной почты: работа, семья, друзья, знакомые и т. Д.

Медицинские схемы: Не болен, простуда, грипп.

Погода: дождливая, пасмурная, снежная.

Классификацию «один против всех» иногда называют классификацией «один против остальных» или алгоритмом классификации нескольких классов.

да… Поздравляю! Теперь вы знаете логистическую регрессию и спасибо, что несли меня до конца. Не забудь похлопать и за эту статью, и за себя :)