Зачем нам нужна логистическая регрессия?
Интервьюер может спросить наверняка: если мы можем использовать линейную регрессию, тогда почему логистическая регрессия, так что иногда в наших данных есть выбросы, поэтому в линейной регрессии мы должны построить наилучшую линию на основе точка данных, которая неверно предсказывает выходные значения, поэтому в этом случае наша линейная регрессия не сработает,

Итак, две причины, почему не следует использовать линейную регрессию для бинарной классификации:

  1. Когда у меня много выбросов, наша линия наилучшего соответствия может полностью отклониться.
  2. Какой бы результат я ни получил, большую часть времени я получаю больше 1 и меньше 0, поэтому для решения этой проблемы мы должны использовать логистическую регрессию.

Итак, в регрессии мы прогнозируем непрерывные значения, но что, если мы хотим предсказать категориальные значения, такие как Истина или Ложь, правильно или неправильно, Да или нет, поэтому в этом случае наша модель линейной регрессии не работает, поэтому для решения этого типа проблема, мы должны использовать логистическую регрессию. В логистической регрессии мы играем с вероятностью (шансами нашей выходной переменной).

Логистическая регрессия - это алгоритм классификации с контролируемым обучением, используемый для прогнозирования вероятности целевой переменной. С помощью логистики мы пытаемся решить двоичную классификацию (Истина или ложь) и Мультиклассовую классификацию (Класс 1, класс 2, класс 3 и т. Д.)

Как это работает?

Поскольку наша цель - найти да или нет, используя некоторые независимые переменные, вы можете представить, что может быть только два случая 0 и 1, по которым мы можем сказать, если я получаю 0, то нет или неудачу, если я получаю 1, то да или успех, в Для этого алгоритма мы установили полосу, и эта полоса поможет нам разделить переменные «да» или «нет» на категории.

Как показано на графике, мы установили пороговое значение 0,5, если значение больше 0,5, это успех, а меньше 0,5 - сбой. Таким образом, в логистической регрессии наше значение всегда находится между 0 и 1. Таким образом, вы должны думать, что если значение точки данных точно расположено на пороге 0,5, то в этом случае эти точки данных не поддаются классификации, а это очень редкий случай.

Еще один момент, на который следует обратить внимание, если наша точка данных находится выше линии, тогда она рассматривается как + ve, а если она ниже наклона, то она рассматривается как -ve.

Основная цель логистической регрессии - найти максимум функции стоимости.

Функция стоимости получается из Y = wx + c (уравнение линии). Если вы хотите узнать больше об этом уравнении, прочитайте мою предыдущую статью https://medium.com/@Monikarajput./facts-behind-linear -regression-42b100fa2cd3

и это значение функции затрат, основанное на обновлении веса «w», которое дает максимальное значение, которое будет использоваться для создания линии наилучшего соответствия.

и на следующем шаге мы будем использовать сигмовидную функцию. Теперь, что такое сигмовидная функция?

Сигмоидальная функция преобразует все ваше суммирование от 0 до 1, тем самым устраняя влияние выбросов, и именно здесь используется наша сигмоидальная функция. насколько высокое значение может иметь любое количество выбросов, которое у вас есть, оно напрямую преобразует эти значения в небольшие значения, которые находятся в диапазоне от 0 до 1

Таким образом, основной принцип - это умножение y * wx и применение этой конкретной функции активации с обновлением «m», если или пока вы не получите наиболее подходящую линию, которая может классифицировать точки и поместить это значение в сигмоидальную функцию.

Два типа логистической регрессии

  • Бинарная логистическая регрессия
  • Мультиклассовая логистическая регрессия

Двоичная логистическая регрессия

Простейшей формой логистической регрессии является двоичная или биномиальная логистическая регрессия, в которой целевая или зависимая переменная может иметь только 2 возможных типа: 1 или 0.

Мультиклассовая логистическая регрессия

Предположим, у нас есть три класса, тип A, тип B, тип C, поэтому здесь то, что делает логистическая регрессия, - это разделение проблемы классификации на несколько классов на несколько задач двоичной классификации и соответствие стандартной модели логистической регрессии для каждой подзадачи. мы назвали эту технику «один против отдыха».

Как показано на рисунке, у нас есть три класса, поэтому после применения этого подхода у нас теперь есть 3 модели, когда мы загружаем наши тестовые данные, каждая модель дает результат, затем мы выбираем модель, которая имеет наибольшую вероятность, что мы будем рассматривать это как наш результат.

Выполнение

Закрытие

Мы рассмотрели математику логистической регрессии, типы логистической регрессии и реализацию.

Не стесняйтесь обращаться ко мне, хорошего дня :)

Свяжитесь со мной: 😉

Электронная почта- [email protected]

LinkedIn: http://linkedin.com/in/monika0104

Github: https://github.com/monika0123

Twitter: https://twitter.com/monikarajput99