Как интерпретировать линейную модель

Линейная регрессия - мощный инструмент науки о данных, с которым вам обязательно нужно ознакомиться. Если нет, ничего страшного ... Прочтите статью здесь за прошлую неделю, чтобы получить хорошее представление о теме и сценарии ее использования.

Итак, вы хотите описать линейную связь между набором функций и результатом. Вы решаете, что линейная регрессия - это ваш план атаки, и загружаете Rstudio или ваш любимый редактор Python. Затем вы импортируете свои библиотеки машинного обучения и пишете код. Вы запускаете модели и добиваетесь успеха, для решения ваших проблем предусмотрены 15 строк сложных консольных выходных данных ...

Вы можете подумать, что сейчас время для интерпретации, однако есть ключевой шаг, который мы должны предпринять, прежде чем продолжить. В линейных моделях есть 4 ключевых допущения, которым необходимо удовлетворить, чтобы достоверно интерпретировать ваш результат.

  1. Линейная связь между предикторами и результатом.
  2. Независимые остатки
  3. Нормальность остатков
  4. Гомоскедастичность

По правде говоря, это предположения, поэтому мы никогда не можем быть полностью уверены, что все четыре верны. Однако мы можем проверить нашу модель на наличие явных доказательств того, что они были скомпрометированы. Мы обязательно должны это сделать.

Линейная связь между предикторами и результатом.

Во-первых, мы можем просто построить график наших предсказателей относительно нашего результата попарно. Будет относительно ясно, если переменная не имеет линейной связи с результатом, потому что вам будет сложно провести прямую линию, чтобы описать эту связь. Это визуальный осмотр (см. Ниже), и здесь не нужно перегибать палку.

Если окажется, что предсказатель не связан линейно с результатом, не отчаивайтесь. Мы можем опробовать некоторые базовые преобразования, такие как преобразование журнала и новое построение графика. Это может разрешить предположение (снова см. Ниже), однако вы сделаете вашу модель в конечном итоге более трудной для интерпретации (подробнее об этом позже).

Независимые остатки

Остаточные суммы - это разница между вашим прогнозируемым значением и парной основной истиной. Другой способ думать об остатках - это расстояние по вертикали (если результат находится на оси y) между основной истиной и подобранной регрессией. Остатки не должны коррелировать друг с другом, и поэтому у вас не должно быть возможности легко установить закономерность в их внешнем виде. Распространенная проблема заключается в том, что остатки коррелируют с характеристиками временных рядов и со временем будут увеличиваться / уменьшаться.

Большинство современных языков программирования, используемых в науке о данных, способны создавать графики соответствия значений модели и остатков. Следует ожидать, что набор остатков будет равномерно распределен по подобранным значениям (см. Ниже).

Нормальность остатков

Здесь мы проверяем нормальное распределение остатков.

Для этого мы создаем график Q-Q. Опять же, это просто в Python или R. Мы хотим наблюдать, как график примерно следует прямой горизонтальной линии. Не беспокойтесь о начале и финише линии, в основном проверяйте среднюю часть на предмет отклонений. Если возникает проблема, мы должны искать выбросы в данных и при необходимости опускать их. Мы также можем применить преобразование к данным и повторно запустить наш график Q-Q.

Гомоскедастичность

Наше последнее предположение относится к постоянной дисперсии наших остатков. Мы оцениваем это, еще раз проверив график зависимости аппроксимированных значений моделей от остатков.

Мы хотели бы видеть равномерное вертикальное распределение точек данных по горизонтальной оси. Есть несколько вещей, которые можно испытать, когда появятся доказательства гетероскедастичности, но они выходят за рамки этой статьи.

Хорошо, уф ... Наша модель работает успешно, и мы удовлетворены тем, что все 4 предположения модели выполнены. А теперь пора повеселиться…

Для базовой интерпретации вывода мы можем рассмотреть 2 термина:

  1. Бета коэффициент
  2. Значение значимости (P-значение)

В линейной регрессии коэффициент бета предсказателя представляет собой единичное изменение результата для единичного изменения предсказателя. Например, если мы пытаемся предсказать вес раковой опухоли (в граммах), используя возраст пациента (измеренный в годах ), если коэффициент бета для возраста равен 5, то на каждый год увеличения возраста мы прогнозируем увеличение веса опухоли на 5 граммов.

P-значение в этом случае является показателем нашей уверенности в этом результате. В статистике мы устанавливаем произвольный предел, когда мы считаем результат значимым и «заслуживающим доверия». В медицине это обычно 5% уровень и соответствует 95% доверительной вероятности. Следовательно, в приведенном выше примере, где мы прогнозировали вес раковой опухоли, мы «доверяем» результату, когда значение p падает ниже 0,05. Опять же, это всего лишь произвольный предел, и в последнее время в академических кругах наблюдается стремление полностью отойти от p-значений.

Чтобы еще больше усложнить ситуацию, прежде чем мы закончим, если у вас много предикторов в вашей линейной регрессии, нам нужно немного изменить нашу интерпретацию. В этом случае увеличение результата на единицу увеличения предиктора происходит тогда, когда мы фиксируем значение других предикторов. Основываясь на нашем предыдущем примере, это было бы, если бы мы использовали возраст и ИМТ для прогнозирования веса раковой опухоли. Если бы наш бета-коэффициент для возраста остался на уровне 5, наша интерпретация была бы увеличением веса опухоли на 5 грамм для увеличения возраста на один год, когда ИМТ остается постоянным. Иногда это называют контролем или корректировкой переменных.

В нашу модель можно включить и другие термины, такие как взаимодействие, фиксированные и случайные эффекты, но я думаю, что мы оставим их еще на неделю!

Теперь мы можем интерпретировать результаты наших моделей на самом базовом уровне, мы можем перейти к прогнозированию на основе новых точек данных на основе того, что мы узнали.

Спасибо за чтение и, пожалуйста, подпишитесь здесь на подобные еженедельные материалы.