Объяснение логистической регрессии

Объяснить логистическую регрессию настолько просто, насколько это возможно.

В линейной регрессии переменная Y всегда непрерывна. Если переменная Y категориальна, вы не можете использовать модель линейной регрессии.

Итак, что бы вы сделали, если Y - категориальная переменная с двумя классами?
Для решения таких проблем, также называемых проблемами двоичной классификации, можно реализовать логистическую регрессию.

Логистическая регрессия - это еще один тип алгоритма контролируемого обучения, но его цель прямо противоположна его названию, а не регрессия, он направлен на классификацию точек данных на два разных класса. Это линейная модель, производящая двоичный вывод.

Линия, разделяющая два класса, известна как гиперплоскость, чем дальше точка данных от гиперплоскости, тем больше уверенность в ее принадлежности к этому классу.

Его цель - найти допустимую разделяющую гиперплоскость, которая наилучшим образом классифицирует оба класса.

Ключевым моментом здесь является то, что Y может иметь только 2 класса и не более того. Если количество выходных классов не является двоичным, это станет многоклассовой классификацией, и вы больше не сможете реализовать ванильную логистическую регрессию.

Вот несколько примеров проблем двоичной классификации:

Обнаружение спама: определение того, является ли электронное письмо спамом.
Мошенничество с кредитными картами: прогнозирование того, является ли данная транзакция по кредитной карте мошеннической.
Здоровье: прогнозирование того, является ли данная масса ткани доброкачественной или злокачественной.

Сигмовидная функция

Мы используем сигмовидную функцию, поскольку она нелинейна и существует между (от 0 до 1). Поэтому он особенно используется для моделей, в которых мы должны предсказать вероятность в качестве выходных данных. мы используем сигмоид, чтобы сопоставить прогнозы с вероятностями.

Функция дифференцируема, поэтому мы можем найти наклон сигмовидной кривой в любых двух точках.

g’(z)=g(z)(1-g(z))

Вычислительная уверенность

Если выход, вычисленный сигмоидной функцией ≥0,5, то мы предполагаем, что точка принадлежит классу 0

Если вывод сигмоидной функцией

Выбор оптимального гиперпараметра

Наша конечная цель - выбрать лучшие гиперпараметры.

Если P - вероятность принадлежности объекта к классу 1, то (P-1) будет вероятностью принадлежности объекта к классу 0, как

Вероятность всегда находится между 0 и 1.

Мы объединили вероятность для обоих классов и производную вероятность, которую мы намерены максимизировать.

Мы успешно получили обновленные гиперпараметры.

Мультиклассовая логистическая регрессия

Но что, если мы хотим иметь много выходных данных с помощью логистической регрессии, для этого мы можем использовать одну v / s модель отдыха.

Для иллюстрации предположим, что наш вывод может быть чем угодно, принадлежащим собакам, кошкам и еще 10 другим классам, но логистическая регрессия - это бинарная модель, поэтому наш подход будет реализовывать ванильную логистическую регрессию для собак и других классов; если прогнозируемый результат - собака, это нормально, но если тестовое изображение принадлежит какому-то другому классу, мы можем повторить нашу предыдущую модель, то есть cat против других классов и так далее.

Логистическая регрессия с использованием Sci-Kit Learn

Преимущества логистической регрессии

Высокая эффективность
Низкая дисперсия
Может быть легко обновлен новыми данными с помощью стохастического градиентного спуска.

Недостатки логистической регрессии

Плохо обрабатывает большое количество категориальных переменных.
Требуется преобразование нелинейных элементов.

Особенности логистической регрессии

Цель - дискретная переменная
Прогнозируемые значения - это вероятность достижения целевых значений.

Если вам понравилась эта статья, подпишитесь на мой информационный бюллетень: Еженедельный информационный бюллетень Дакша Трехана.

Заключение

Надеюсь, эта статья не только расширила ваше понимание логистической регрессии, но и заставила вас осознать, что это несложно и уже происходит в нашей повседневной жизни.

Как всегда, большое спасибо за чтение и, пожалуйста, поделитесь этой статьей, если вы нашли ее полезной! :)

Присоединяйтесь ко мне на www.dakshtrehan.com

LinkedIN ~ https://www.linkedin.com/in/dakshtrehan/

Instagram ~ https://www.instagram.com/_daksh_trehan_/

Github ~ https://github.com/dakshtrehan

Прочтите другие мои статьи: -

Обнаружение COVID-19 с помощью глубокого обучения

Объяснение линейной регрессии

Определение идеального соответствия вашей модели машинного обучения

Связь методов машинного обучения с реальной жизнью

На службе у новичков в науке о данных

Следите за дальнейшими блогами по машинному обучению / глубокому обучению.

Средний ~ https://medium.com/@dakshtrehan

Ура.

Шаблон обложки сделал я на www.canva.com. Остальные картинки взяты из моей записной книжки.