Краткое введение в пошаговую регрессию.

Итак, вы видели название, и оно говорит Stepwise. Как следует из названия «ступенчатая регрессия», эта процедура выбирает переменные поэтапно. Поэтапно либо добавляется наиболее значимая переменная, либо удаляется наименее значимая переменная. Он не рассматривает все возможные модели и создает единую регрессионную модель, когда алгоритм завершает работу.

Он широко используется для сопоставления моделей регрессии с моделями прогнозирования, которые выполняются естественным образом. С каждым шагом вперед переменная добавляется или вычитается из группы описательных переменных.

Как работает пошаговая регрессия

  • Обратный метод. Всякий раз, когда модель полностью насыщена, мы думаем об удалении некоторых параметров, чтобы сделать ее более общей. Пошаговая регрессия назад делает то же самое для нас. На каждом этапе он постепенно исключает переменные из регрессионной модели, чтобы найти сокращенную модель, которая лучше всего объясняет данные.
  • Примером пошаговой регрессии с использованием метода обратного исключения может быть попытка понять использование энергии на заводе с использованием таких переменных, как время работы оборудования, возраст оборудования, численность персонала, температура снаружи и время года. Модель включает в себя все переменные — затем каждая из них удаляется по одной, чтобы определить, какая из них наименее статистически значима. В конце концов, модель может показать, что время года и температура имеют наибольшее значение, что, возможно, предполагает пиковое потребление энергии на заводе, когда использование кондиционера является максимальным.
  • Прямой метод. Теперь, когда вы знаете обратный метод, прямой метод делает прямо противоположное. Изначально в модели нет переменных, поэтому она добавляет переменные, проверяя их по одной. Если у вас есть большой набор переменных-предикторов, используйте этот метод

Проблемы с пошаговым

Исследования показали, что иногда реальные и объясняющие переменные, которые оказывают причинное влияние на зависимую переменную, могут оказаться статистически незначимыми, в то время как мешающие переменные могут быть значимыми по совпадению. В результате модель может хорошо соответствовать данным внутри выборки, но плохо работать вне выборки.

Вывод

Многие исследователи больших данных считают, что чем больше число возможных объясняющих переменных, тем полезнее ступенчатая регрессия для выбора объясняющих переменных. Реальность такова, что пошаговая регрессия менее эффективна, чем больше количество потенциальных объясняющих переменных. Пошаговая регрессия не решает проблему больших данных, связанную со слишком большим количеством независимых переменных. Большие данные усугубляют недостатки пошаговой регрессии. Однако пошаговая регрессия имеет свои недостатки, поскольку это подход, который вписывает данные в модель для достижения желаемого результата.