• Что такое регрессия

Регрессионный анализ — это набор статистических методов, используемых для оценки отношений между зависимой переменной и одной или несколькими независимыми переменными.

Уравнение: Y = bX+a

  • Что такое логистическая регрессия

Логистическая регрессия — это алгоритм классификации. Он используется для прогнозирования бинарного результата (зависимая переменная) на основе набора независимых переменных.

Зависимая переменная:

Ее также называют целевой переменной, и вывод этой переменной является дихотомическим.

Типа — [0,1], ['да','нет'],['сдал','не сдал'] и т. д. зависимая переменная — результат; то, что вы измеряете или прогнозируете.

Независимая переменная:

Независимые переменные — это те переменные или факторы, которые могут повлиять на результат зависимых переменных.

Независимая переменная попадает в 3 разные категории -

  1. Непрерывные — например, температура в градусах Цельсия или вес в граммах.

При использовании непрерывных данных в LR мы классифицируем их как интервальные данные или относительные данные. Например, температура в градусах Цельсия будет классифицироваться как интервальные данные; [10–11,30–31] и Вес в граммах будут классифицироваться как данные соотношения.

2. Дискретный, порядковый — например, шкала like-rt. Если вас попросят указать, насколько вы удовлетворены по шкале от 1 до 5, точка на шкале представляет порядковые данные.

3. Дискретные, номинальные — Данные, попадающие в названную группу, не представляют собой какой-либо ордерной шкалы. Примерный цвет глаз может подпадать под категории «Синий», «Коричневый», «Зеленый». Обратите внимание, что иерархии нет.

Переменные отношения. Возраст, деньги и вес – это общие переменные шкалы отношений. Например, если вам 50 лет, а вашему ребенку 25 лет, вы можете точно заявить, что вы в два раза старше их.

Здесь шкала отношений имеет абсолютный нуль или характер начала. Рост и вес не могут быть нулевыми или ниже нуля.

Переменная интервала: температура в кондиционируемом помещении составляет 16 градусов Цельсия, а температура снаружи – 32 градуса Цельсия. Можно сделать вывод, что температура снаружи на 16 градусов выше, чем внутри помещения.

Но если вы скажете: «Снаружи в два раза жарче, чем внутри», вы будете неправы.

Здесь нулевая точка на шкале интервалов произвольна. Например, температура может быть ниже 0 градусов по Цельсию и в отрицательную температуру

Предположение о логистической регрессии:

→ Зависимая переменная, если она бинарная или дихотомическая

→ Между переменными-предикторами не должно быть или очень мало мультиколлинеарности.

→ независимая переменная должна быть линейно связана с логарифмическими шансами

→ Логистическая регрессия требует довольно большого размера выборки

Логарифмические шансы: Логарифмические шансы — это альтернативный способ выражения вероятностей. Разница между шансами и вероятностями —

Шансы → отношение того, что что-то происходит, к тому, что что-то не происходит

Вероятность → отношение того, что что-то происходит, ко всему, что могло бы произойти

Лог нечетный = p/1-p

Log Odds играет центральную роль в логистической регрессии. Каждая вероятность преобразуется в логарифм шансов путем нахождения отношения шансов и логарифмирования.

Вероятность, отношение шансов и логарифм шансов — это одно и то же, только выраженное по-разному. Это похоже на научную нотацию: число 1000 можно записать как 1,0 * 10³, а также можно записать как 1 * 10 * 10 * 10.

Вероятность – это вероятность того, что событие произойдет. Пример — сегодня может быть 80% вероятность дождя.

Шансы определяются как вероятность успеха/вероятность неудачи, следовательно, 80/100–80.

Логарифм шансов — это логарифм шансов, Ln(80/(100–80)

Регистрирует нечетную или логит-функцию:

Лог(А) = Лог[П/(1-П)]

Здесь P = вероятность наступления события

1-P = Вероятность того, что событие не произойдет

Нечетное отношение: = (A/C)/(B/D)

= (13/17)/(32/23)

= 0.55

Что означает этот результат?

ИЛИ (отношение нечетности), если ›1 → более высокий эффект

ИЛИ = 1 → Нет эффекта

ИЛИ ‹1 → Вероятный (более низкие шансы)

Пример:

  • Высокие коэффициенты означают, что если вы сделали ставку, вы получите большую выплату;
  • низкие коэффициенты означают, что если вы сделали ставку, вы получите меньшую выплату.

И логарифмические шансы = log(0,55) = -0,59

Случай использования логистической регрессии (LR):

LR используется для расчета вероятности возникновения бинарного события и решения вопросов классификации. Пример: прогнозирование того, является ли входящее электронное письмо спамом или нет, или прогнозирование того, является ли транзакция по кредитной карте мошеннической или нет.

В маркетинге его можно использовать, чтобы предсказать, купит ли данный пользователь определенный продукт или нет.

Косметическая компания может захотеть определить, может ли определенный покупатель положительно отреагировать на рекламное предложение «2 по цене 1» в ассортименте средств по уходу за кожей.

Еще одним особым вариантом использования в банковском секторе может быть предсказание того, соответствует ли заявитель требованиям для получения банковского кредита или нет.

Различные типы логистической регрессии:

Существует 3 различных типа логистической регрессии.

  1. Бинарная логистическая регрессия:

В статистическом методе используется для прогнозирования связи между зависимой переменной (Y) и независимой переменной (X), где зависимая переменная носит бинарный характер.

2. Многономинальная логистическая регрессия:

Используется, когда у вас есть одна категориальная зависимая переменная с двумя или более неупорядоченными уровнями (›= 2 дискретных результата). Это очень похоже на логистическую регрессию, за исключением того, что здесь у вас может быть более двух возможных результатов. Например, давайте представим, что вы хотите предсказать, какой вид транспорта будет наиболее используемым в 2030 году. Здесь тип транспорта будет зависимой переменной с возможными результатами, такими как поезд, автобус, велосипед и т. д.

3. Порядковая логистическая регрессия:

Используется, когда зависимая переменная (Y) упорядочена (порядковая). Зависимая переменная имеет значимый порядок и более двух категорий или уровней. Пример. Могут быть футболки ( XS/S/M/L/LX) и ответ опроса общественного мнения (Согласен/Не согласен/Нейтрально) или результат теста (Плохо/Средне/Хорошо).

Преимущество логистической регрессии:

Логистическую регрессию реализовать намного проще, чем другие методы, особенно в контексте машинного обучения.

→ Логистическая регрессия хорошо работает в случаях, когда набор дат является линейно разделимым

→ Логистическая регрессия позволила получить ценную информацию

Недостаток логистической регрессии:

→ Логистическая регрессия не может предсказать непрерывный результат

→ Логистическая регрессия предполагает линейность между прогнозируемой (зависимой) переменной и предиктором (независимыми) переменными.

→ Логистическая регрессия может быть неточной, если размер выборки слишком мал