Логистическая регрессия - это метод моделирования, используемый для прогнозирования вероятности наступления события. Переменная ответа, то есть базовое событие, имеет только два результата: происходит или не происходит. Например, воины выигрывают следующую игру, клиент кредитной карты привлекается в течение трех месяцев после участия и т. Д.

Иногда зависимую (ответную) переменную сложнее определить в двоичном виде. Будет ли новый запуск успешным? Здесь аналитик или бизнес-потребности определяют объем единиц успеха, в которых измеряется успех, количественный порог, подтверждающий успех, временные рамки, в течение которых пороговое значение должно быть достигнуто, и непрерывность деятельности. Принимая во внимание, что то, получит ли стартап прибыль в 2018 году или нет, уже является бинарным исходом, исключающим возможность безубыточности.

Давайте разберемся с концепцией на простом относительном примере. Предположим, подруга подозревает, что может быть беременна, но в данный момент у нее нет доступа к тесту на беременность. Неопределенность беспокоит, и мы хотим предсказать вероятность того, что она верна. Наша переменная ответа (далее обозначаемая как «y») является флагом «друг беременна», который принимает значение 1, если истинно, и значение 0, если ложно.

Есть определенные предположения, которые нам необходимо сделать (верные для любого анализа). Мы предполагаем, что наш друг - женщина, а ее партнер - мужчина, потому что все друзья, не являющиеся женщинами, и / или партнеры, не являющиеся мужчинами, исключили бы возможность y = 1. Мы предполагаем, что в данном примере используется только одна форма контрацепции или не используется ни одна. Мы предполагаем, что обе стороны способны к воспроизведению.

y определяет левую часть нашего уравнения. Правая часть уравнения состоит из всех переменных (X = x1, x2,… xn), которые влияют на результат y. В этом примере список X может включать такие переменные, как количество дней с момента полового акта (дни), возраст друга (f_age), возраст партнера (m_age), отметка для таблетки как контрацепции (пилюли), отметка для презерватива как контрацептива (презервативы ), отметьте другие методы контрацепции (прочие), контрацептивы не использовались.

Вы заметите, что первые три переменные здесь являются количественными и дискретными числами. Следующие четыре переменные - это флаги одного решения, принятого другом. Мы используем фиктивные переменные для представления этого решения. Количество созданных фиктивных переменных на единицу меньше возможных результатов решения. В таблице показано, как это работает:

Чтобы предсказать, беременна ли наша подруга, нам нужно сначала понять, как эти переменные влияют на наш y. Для каждого x, является ли эффект значительным, положительным или отрицательным, какова сила эффекта? Для количественной оценки взаимосвязи мы используем модель логистической регрессии на существующих данных о случаях беременности и небеременности, для которых нам известны соответствующие значения X. Уравнение взаимосвязи можно записать как:

где первая бета представляет собой значение y по умолчанию, когда все остальные факторы не действуют. Остальные бета-значения представляют величину воздействия соответствующего x на y, когда все остальные X являются постоянными. Знаки представляют направление эффекта, отрицательный знак означает, что когда x увеличивается, y уменьшается. В этом примере, если знак, связанный с женским возрастом, был отрицательным, это означало бы, что шанс забеременеть будет уменьшаться с увеличением возраста женщины. Это можно объяснить простой биологией, поскольку с возрастом фертильность женщин снижается.

Модель пытается понять, как эти X по отдельности влияют на y с учетом комбинации X.

Важно отметить, что эти X - всего лишь примеры возможных переменных, которые влияют на y. Можно выполнить несколько итераций регрессии, чтобы найти модель, которая показывает наилучшую точность. Точность модели в основном означает, насколько хорошо крестики могут объяснить любое изменение y. Чтобы повысить точность, мы могли бы добавить в уравнение больше переменных или исключить из него существующие переменные, которые не имеют значения.

Как только мы используем существующие данные для оценки значений бета-версий, упомянутых в приведенном выше уравнении, мы можем интерпретировать результаты и предсказать, действительно ли наша подруга беременна. Точность модели будет определять нашу уверенность, с которой мы делаем прогноз.

Затем мы вменяем значения X для нашего друга и оценочные значения бета-версий из модели в уравнение, чтобы найти значение y. Можно ожидать, что результирующее значение y из логистической регрессии будет между 0 и 1. Это значение может использоваться либо для представления вероятности возникновения события (1), либо может быть округлено до 1 или 0 для получения ответа «да» или «да». нет ответа.

Нет, может быть, есть!

Ссылки:

https://www.medcalc.org/manual/logistic_regression.php

http://www.stat.cmu.edu/~cshalizi/uADA/12/lectures/ch12.pdf

http://ufldl.stanford.edu/tutorial/supervised/LogisticRegression/