Основы логистической регрессии!

Как правило, модели машинного обучения можно разделить на два основных метода обучения: контролируемое и неконтролируемое. Единственная разница между ними заключается в том, что выходная переменная (ответ) в обучении с учителем помечается на основе предыдущих данных, тогда как предопределенные метки не назначаются выходной переменной (ответу) в методе обучения без учителя. Регрессия и классификация — это модели, построенные в соответствии с методом обучения под наблюдением, где имеющиеся данные фиксируются либо числовыми метками, либо категориальными метками. Чтобы узнать больше о методе обучения без учителя, вы можете посетить мою статью Математика, стоящая за K-средними и алгоритмом иерархической кластеризации!. Всякий раз, когда мы пытаемся приступить к решению бизнес-проблемы, всегда старайтесь сначала понять ваши данные и бизнес-домен, а затем проанализировать, является ли это проблемой контролируемого или неконтролируемого машинного обучения.

Обучение с учителем можно разделить на параметрические и непараметрические алгоритмы.

Параметрические алгоритмы. Перед применением линейной регрессии нам нужно было убедиться в некоторых предположениях относительно модели линейной регрессии. Всякий раз, когда у метода SL есть предварительные условия или предположения о данных, прежде чем вы сможете применить алгоритм. В Parametric вам необходимо подготовить данные для алгоритма, прежде чем применять алгоритм к данным. Линейные, логистические, простые нейронные сети, наивные прощания — это некоторые типы параметрических алгоритмов. Они быстрее в вычислениях, потому что вы курируете наблюдаемые данные, на которых алгоритм может учиться.

Непараметрические алгоритмы: вы не делаете никаких предположений о параметрах данных, прежде чем применять какой-либо алгоритм к данным. Деревья решений, случайный лес, KNN и SVM — это некоторые типы непараметрических алгоритмов. Они медленны в вычислениях и имеют ограниченную производительность.

Регрессия или классификация?

Мы знаем, что линейная регрессия позволяет нам делать прогнозы на основе данных, когда целевая переменная (отклик) является числовой. С другой стороны, логистическая регрессия позволяет нам делать прогнозы на основе данных, когда целевая переменная (отклик) является категориальной. Во многих ситуациях полученные вами данные будут иметь переменную ответа в категориальной форме. Логистическая регрессия — это базовая модель, часто используемая в отрасли всякий раз, когда возникает потребность в бизнес-задаче контролируемой классификации.

На самом деле концепция логистической регрессии очень проста и очень похожа на линейную регрессию, поэтому, если вы хотите изучить основы линейной регрессии, вы можете перейти по ссылке на мою статью Концепция линейной регрессии для новичков!! ».

Двумя основными важными различиями между логистической и линейной регрессией являются:

1. Зависимая (отклик) переменная в линейной регрессии является непрерывной (числовой), тогда как в логистической регрессии она дискретного (категориального) типа.

2. Функция стоимости в линейной регрессии минимизирует ошибки. Сумма (фактическое (Y) - предсказанное (Y))2, но логистическая регрессия использует метод функции максимального правдоподобия для максимизации вероятностей.

Вскоре мы обсудим метод функции правдоподобия.

Давайте сначала разберемся с логистической регрессией на нескольких примерах:

  • Наиболее распространенный пример: банк корпоративного сектора хочет знать, не выполнит ли клиент обязательства по кредиту или нет.
  • Компания хочет знать, уволится человек или нет. Это еще один пример, когда многие компании используют логистическую регрессию в рамках бинарной классификации для прогнозирования оттока сотрудников на основе определения коэффициента удержания сотрудников.
  • В производственном секторе компании используют этот метод, чтобы определить, выйдет ли из строя конкретная машина или нет в определенный период времени, исходя из ее производительности и параметров окружающей среды.

Двоичная классификация:

Во-первых, всякий раз, когда мы обсуждаем проблему классификации, проблема может быть либо бинарной, либо мультиклассификационной. Например, когда нам нужно классифицировать случай «Да» или «Нет» или, что наиболее вероятно, случай «1» и «0», то есть любые две категории, тогда это метод двоичной классификации. С другой стороны, если нам нужно классифицировать более двух категорий, это проблема множественной классификации.

Бинарная классификация — это не что иное, как метод одномерной логистической регрессии, в котором у вас есть 1 зависимая (целевая) переменная и 1 независимая (предикторная) переменная. И когда у вас есть более 1 независимой (предикторной) переменной вместе с 1 зависимой (целевой) переменной, это случай многомерной логистической регрессии. Как правило, в отрасли используется MLR, так как в интересах иметь больше переменных-предикторов для стабильности модели. В этой статье мы будем понимать основные принципы логистической регрессии с помощью одномерного метода, тогда как многомерный метод объясняется с помощью алгоритма в статье Алгоритм логистической регрессии всего за 4 шага!.

Большинство из нас сталкиваются с общей проблемой после знакомства с регрессией и классификацией: если регрессия имеет дело с непрерывными (числовыми) целевыми переменными, а классификация имеет дело с дискретными (категориальными) переменными, а логистическая регрессия является методом классификации, то почему мы используем этот термин? Логистическая регрессия, когда мы классифицируем данные?

Это связано с тем, что результатом логистической регрессии являются вероятности, которые носят непрерывный характер, с помощью этих вероятностей логистическая модель помогает нам классифицировать, какой класс является важным предиктором. Это означает, что из любых двух классов, используемых в качестве метода бинарной классификации, любой класс будет иметь более 50% шансов быть значимым и интересным для нас. Следовательно, выходные данные вычисляются с точки зрения вероятностей, которые являются непрерывными (числовыми) по своей природе, и эти вероятности помогают нам определить лучший класс как наш значимый класс предикторов.

Подводя итог, давайте посмотрим на определение логистической регрессии.

Определение. Логистическая регрессия — это контролируемый алгоритм классификации машинного обучения, который используется для прогнозирования вероятности категориальной зависимой переменной. Эта зависимая переменная представляет собой двоичную переменную, которая содержит данные, закодированные как 1 (да, успех и т. д.) или 0 (нет, сбой и т. д.).

Например, если мы пытаемся предсказать, является ли человек диабетиком или нет, то человек с диабетом будет считаться классом 1, а человек, не страдающий диабетом, будет рассматриваться как класс 0.

Другими словами, модель логистической регрессии предсказывает P(y=1), т. е. эта вероятность принадлежит к определенному классу 1 как функция x. Это означает, что уровень фактора 1 зависимой переменной (y) должен представлять желаемый результат.

Концепции логистической регрессии:

Сигмовидная функция:

Как обсуждалось выше, при расчете результата логистической регрессии, который равен 1 или 0, мы думаем с точки зрения вероятностей. Кроме того, согласно основному правилу вероятности, все значения возможных исходов лежат между 0 и 1, а сумма всех вероятностей всех возможных исходов равна 1. Следовательно, график, представляющий логистическую регрессию в виде вероятности кривая также известна как сигмовидная кривая.

Формула для функции сигмоид выглядит следующим образом:

Здесь мы вычисляем Y (вероятность бинарного ответа), обозначаемую как P.

Таким образом, сигмовидная кривая обладает всеми возможными свойствами, которые вы хотите графически визуализировать на выходе логистической регрессии — чрезвычайно низкие значения в начале, чрезвычайно высокие значения в конце и промежуточное значение в середине. Это наиболее подходящий выбор для моделирования значений вероятностей для любого метода бинарной классификации.

Однако вам может быть интересно — почему мы не можем просто построить прямую линию? Ну, а основная проблема с прямой в том, что она недостаточно крутая. Как видно на графике, из-за двух разных классов 0 и 1 значения возрастают от низких до высоких довольно равномерно.

Кроме того, если вы заметили, сигмовидная функция содержит уравнение линейной прямой, которое

y = c + mx или вы можете обозначить его как y = β0 + β1x

где β0 и β1 — c и m функции линейной регрессии, где c — константа, а m — коэффициент при x. Таким образом, в основном, изменяя β0 и β1, вы получите разные сигмовидные кривые. Теперь возникает вопрос, как найти наиболее подходящую сигмовидную кривую для лучших значений β0 и β1?

Функция правдоподобия (нахождение наиболее подходящей сигмовидной кривой):

Другими словами, это означает, что нам нужно будет найти наилучшую комбинацию β0 и β1, которая соответствует собранным наблюдениям. Таким образом, варьируя значения β0 и β1, вы получаете разные сигмовидные кривые. Теперь, основываясь на некоторой функции, которую мы должны минимизировать или максимизировать, мы получим наиболее подходящую сигмовидную кривую.

Давайте визуализируем пример диабета на приведенном выше графике с учетом его наблюдений за уровнем сахара в крови. Глядя на график, мы видим некоторые точки данных, образующие сигмовидную кривую. Точки данных: P1, P2, P3, P4, P5, P6, P7, P8, P9, P10. Это люди с диабетом и люди без диабета, классифицированные по двум классам 0 и 1, образующие единую кривую вероятности. Если мы хотим оценить наилучшую сигмовидную кривую, вероятности людей, не страдающих диабетом, должны быть как можно ближе к классу 0, поскольку мы не хотим относить таких людей к категории диабетиков, поскольку это рискованно. Точно так же вероятность диабетиков должна быть как можно ближе к 1.

Таким образом, у нас есть 1-й набор точек данных (P1, P2, P3, P4, P6), который должен быть как минимум равен 0, а 2-й набор точек данных (P5, P7, P8, P9, P10) должен быть максимальным. как можно равным 1. Это соглашение дало бы нам наилучшую сигмовидную кривую. Чтобы использовать это соглашение, статистики сформулировали приведенную ниже функцию, известную как «Функция правдоподобия».

Продукт = (1 — Л1) (1- Л2) (1 — Л3) (1 — Л4) (1 — Л6) (Л5) (Л7) (Л8) (Р9) (Р10)

Следовательно, нам нужно найти ту конкретную кривую (β0 и β1), которая максимизирует это «Произведение». Этот продукт называется Функция правдоподобия. Это похоже на линейную функцию, где мы варьируем β0 и β1, пока не найдете лучшую комбинацию, которая минимизирует функцию стоимости. Единственная разница в том, что в логистической регрессии мы максимизируем функцию затрат.

Поскольку мы пытаемся максимизировать функцию стоимости, наша цель состоит в том, чтобы максимизировать набор всех наблюдений. Итак, вместо того, чтобы напрямую брать произведение нашего 1-го набора точек данных (недиабетическая толпа), чтобы максимизировать, мы берем расстояние от 1 вместо 0. Следовательно, мы вычисляем (1 — P1) (1 — P2) ….. (1 — Пи) и так далее.

[(1 — P1) (1- P2) ….. (1 — Pi) — — — — → для всех недиабетиков]

[ (Pi) (Pi) ….. (Pi) — — — — — — — → для всех диабетических классов ]

Шансы и логи:

Приведенная выше сигмовидная функция дает вам связь между продуктом (вероятностью бинарного ответа двух классов) и x (все наблюдения по отдельности). Хотя уравнение правильное, оно не очень интуитивно понятно, поскольку отношения настолько сложны с точки зрения вероятности, что становится трудно понять, какая тенденция существует между ними. Итак, если вы попытаетесь приписать несколько значений x в порядке возрастания через равные интервалы, как это повлияет на вероятность? Будет, тоже увеличится на столько же или нет? После некоторых исследований, проведенных статистиками, если вы настроите сигмовидную функцию, придав ей несколько иной вид, вы сможете получить гораздо более интуитивную взаимосвязь. Эта настройка может помочь нам получить более линейную форму уравнения или, можно сказать, гораздо более простой способ интерпретации уравнения для логистической регрессии. Посмотрим как?

У нас уже есть сигмовидная кривая, как P = 1 / 1 + e - (β0 + β1x)

Мы вычтем 1 с обеих сторон, 1 — P = 1 — ( 1 / 1 + e-(β0+ β1x))

= 1 — P = e -(β0 + β1x) / 1 + e -(β0 + β1x)

Взяв Reciporcel с обеих сторон, мы получим функцию Odds

Функция шансов = P / ( 1 — P ) = e (β0 + β1x)

Если взять лог с обеих сторон, то получим

Логарифмическая функция шансов = ln ( P / 1 — P) = β0 + β1x

Здесь P/1 — P = вероятность успеха/вероятность неудачи,

Это дает вам значение их отношения шансов, скажем, Y (вероятность двоичного ответа)

В нашем примере с диабетом это означает,

Вероятность того, что кто-то диабетик = Y * Вероятность того, что кто-то не диабетик.

Конец примечаний:

Если вы хотите взглянуть на проект логистической регрессии, полное тематическое исследование можно найти в моем репозитории на GitHub.