Логистическая регрессия в деталях

Логистическая регрессия — это алгоритм классификации. Он используется для прогнозирования бинарного результата (1/0, Да/Нет, Истина/Ложь) с учетом набора независимых переменных. Для представления бинарного/категориального результата мы используем фиктивные переменные. Вы также можете думать о логистической регрессии как о частном случае линейной регрессии, когда переменная результата является категориальной, где мы используем логарифм шансов в качестве зависимой переменной. Логистическая регрессия названа в честь функции, используемой в основе метода, логистической функции.

Логистическая функция, также называемая сигмовидной функцией, была разработана статистиками для описания свойств роста населения в экологии, быстрого роста и максимального использования пропускной способности окружающей среды. Это S-образная кривая, которая может взять любое число с действительным знаком и преобразовать его в значение от 0 до 1, но никогда точно в этих пределах.

1 / (1 + e^-значение)

Уравнение для логистической регрессии

Входные значения (x) линейно комбинируются с использованием весов или значений коэффициентов (называемых греческой заглавной буквой бета) для прогнозирования выходного значения (y). Ключевое отличие от линейной регрессии заключается в том, что моделируемое выходное значение представляет собой двоичное значение (0 или 1), а не числовое значение.

Ниже приведен пример уравнения логистической регрессии:

y = e^(b0 + b1*x) / (1 + e^(b0 + b1*x))

Где y — прогнозируемый выходной сигнал, b0 — смещение или член пересечения, а b1 — коэффициент для одного входного значения (x). Каждый столбец в ваших входных данных имеет связанный коэффициент b (постоянное действительное значение), который должен быть изучен из ваших обучающих данных. Ниже показан пример графика логистической регрессии с изменяющимися значениями коэффициентов.

Функция стоимости

Функция стоимости минимизируется для любого алгоритма машинного обучения, чтобы найти наилучшую подогнанную линию или наиболее эффективные коэффициенты. Здесь у нас есть — b0 + b1 * x, и нам нужно найти функцию стоимости, которая поможет нам минимизировать коэффициенты. Мы будем использовать градиентный спуск для функций стоимости, чтобы минимизировать данное уравнение, и точка, в которой наклон минимален, даст нам наилучшую границу решения для логистической регрессии.

Функция стоимости для логистической регрессии может быть представлена как показано ниже:

Это можно комбинировать как-

Показатели эффективности

Матрица путаницы. Прежде чем перейти к показателям производительности, давайте сначала поговорим о матрице путаницы и разберемся в ней. Образец матрицы путаницы показан ниже. Ось Y представляет собой фактические метки, а ось X представляет прогнозируемые метки. Мы используем это для расчета показателей производительности, как описано ниже.

2. Точность. Точность представляет собой количество правильно классифицированных экземпляров данных по отношению к общему количеству экземпляров данных.

3. Точность: точность в идеале должна быть 1 (высокая) для хорошего классификатора. Точность становится равной 1 только тогда, когда числитель и знаменатель равны, т.е. TP = TP +FP, это также означает FP равен нулю. По мере увеличения FP значение знаменателя становится больше числителя, а значение точность уменьшается.

4. Отзыв: отзыв также известен как чувствительностьили достоверность истинного положительного результата. Отзыв в идеале должен быть 1 (высокий) для хорошего классификатора. Отзыв становится равным 1 только тогда, когда числитель и знаменатель равны, т.е. TP = TP +FN, это также означает FN равен нулю. По мере увеличения FN значение знаменателя становится больше числителя, а значение отзыва уменьшается

5. Оценка F1:оценка F1 – это показатель, который учитывает как точность, так и отзыв. Оценка F1 становится равной 1 только тогда, когда точность и отзыв равны 1. Оценка F1становится высокой только тогда, когда и точность, и припоминание являются высокими. Оценка F1 – это среднее гармоническое между точностью и отзывом и является лучшим показателем, чем точность.

Сводка

Логистическая регрессия является одним из наиболее широко используемых отраслевых стандартных алгоритмов машинного обучения как из-за его производительности, так и простоты интерпретации. Какие функции важны для бизнеса, можно определить по их коэффициентам, когда мы смотрим на окончательную модель, которая создается и может использоваться для принятия бизнес-решений.

Логистическая регрессия в деталях

Уравнение для логистической регрессии

Функция стоимости

Показатели эффективности

Сводка

Вопросы по теме