Логистическая регрессия и ее математическая реализация

В этом блоге рассказывается об одном из наиболее важных алгоритмов машинного обучения, называемом логистической регрессией, различных типах логистической регрессии, работе и ее математической реализации.

В. Что такое ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ?

Линейная регрессия — это алгоритм машинного обучения.
Он основан на контролируемом обучении.
Этот алгоритм анализирует взаимосвязь между зависимой и независимой переменной и оценивает вероятность возникновения события, существующего события, такого как прохождение/непрохождение, выигрыш/проигрыш, живой/мертвый или здоровый/больной и т. д.

В. Что такое ЛОГИСТИЧЕСКАЯ ФУНКЦИЯ?
Логистическая регрессия названа в честь функции, используемой в основе метода, известной как логистическая функция или сигмовидная функция. Это S-образная кривая, которая может взять любое число с действительным знаком и преобразовать его в значение от 0 до 1.

В. Какие существуют типы ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ?

В основном существует три типа логистической регрессии:

Биномиальный: целевая переменная может иметь только 2 возможных типа: "0" или "1", которые могут представлять"выигрыш" против " проигрыш», «сдал» или «не сдал», «мертвый» или «живой» и т. д.
Полиномиальная: целевая переменная может иметь 3 или более возможных типов, которые неупорядочены (т. е. типы не имеют количественного значения), например "болезнь А" против "заболевания Б" против "заболевания С".
Порядковый: имеет дело с целевыми переменными с упорядоченными категориями. Например, результат теста можно разделить на следующие категории:"очень плохо", "плохо", "хорошо", "очень хорошо". Здесь каждой категории может быть присвоена оценка, например 0, 1, 2, 3.

Работа алгоритма логистической регрессии:

Логистическая регрессия измеряет взаимосвязь между категориальной зависимой переменной (которую мы хотим предсказать) и одной или несколькими независимыми переменными (т. е. функциями) путем оценки вероятностей с использованием логистической/сигмоидной функции.
Затем эти вероятности должны быть преобразованы в двоичные значения. для того, чтобы действительно сделать прогноз.

Здесь x1,x2,x3 и x4 являются входными характеристиками, теперь модель будет оценивать вероятность события, и этот вывод (вероятность) переходит к сигмовидной функции в качестве входных данных, затем сигмоидная функция предсказывает выходные данные как 0 или 1.

Математическая реализация логистической регрессии:

Входные значения (x) линейно комбинируются с использованием весов или значений коэффициентов (называемых греческой заглавной буквой бета) для прогнозирования выходного значения (y). Ключевое отличие от линейной регрессии заключается в том, что моделируемое выходное значение представляет собой двоичное значение (0 или 1), а не числовое значение.

Ниже приведен пример уравнения логистической регрессии:

y = e^(b0 + b1*x) / (1 + e^(b0 + b1*x))

Где y — прогнозируемый выходной сигнал, b0 — смещение или член пересечения, а b1 — коэффициент для одного входного значения (x). Каждый столбец в ваших входных данных имеет связанный коэффициент b (постоянное действительное значение), который должен быть изучен из ваших обучающих данных.

Значения на графике логистической регрессии лежат между 0 и 1.

→Пороговое значение

Здесь мы вводим порог. Теперь давайте разберемся с порогом на примере.

См. приведенную выше диаграмму, пороговое значение принято равным 0,5 и даны два условия.

1) Если значение ›0,5, то значение округляется до 1.

2) Если значение ‹0,5, то значение округляется до 0.

В. Как линейную регрессию можно преобразовать в логистическую регрессию?

Пусть у нас есть модель с функциями x1, x2, x3 … xn и двоичным выходом, обозначенным Y, который может принимать значения 0 или 1.
Пусть p будет вероятностью (Y = 1) события, чтобы произойти а 1-p — вероятность (Y=0) того, что событие не произойдет.
Пусть b0,b1,b2…..,bn — коэффициенты (веса), тогда математическая связь между этими переменными можно обозначить как:

Термин ln(p/1-p) известен как логарифм шансов . Он обозначает вероятность возникновения события. Он просто используется для сопоставления вероятности, лежащей между 0 и 1, с диапазоном между (-∞, +∞).

Давайте найдем значение p из приведенного выше уравнения:

Теперь это становится уравнением сигмовидной функции, которая может принимать любое действительное значение и отображать его в диапазоне от 0 до 1.

Применения логистической регрессии:

Сегментация и категоризация изображений.
Обработка географических изображений.
Распознавание рукописного ввода.
Здравоохранение: анализ группы из более чем миллиона человек на наличие инфаркта миокарда в течение 10 лет является областью применения логистической регрессии.
Прогнозирование того, находится ли человек в депрессии или нет, основано и т. д.

Вот и подходит к концу эта статья.

СПАСИБО ЗА ВАШЕ ЦЕННОЕ ВРЕМЯ.

Логистическая регрессия и ее математическая реализация

Вопросы по теме