Вам действительно нужно сосредоточиться на концепции мультиколлинеарности при построении моделей машинного обучения, давайте выясним.

Что такое мультиколлинеарность?

Когда две или более независимых переменных или переменных-предикторов сильно связаны друг с другом или когда они имеют высокую корреляцию, возникает мультиколлинеарность. Это делает набор данных раздутым избыточной информацией, поскольку аналогичная информация заполняется, и искажает результаты в регрессионных моделях.

Рассмотрим набор данных, содержащий столбец с именем «возраст», который содержит возраст разных людей, и другой столбец, называемый «Квадрат возраста», который содержит квадрат (* 2) значений, присутствующих в столбце возраста, теперь изменение в одном из этих столбцов приведет к изменению в другом столбце. Это приведет к циркуляции одной и той же информации в наборе данных и не поможет модели машинного обучения, которую вы пытаетесь создать, в конечном счете, поскольку любого из этих столбцов также будет достаточно для передачи информации, которая пытается выйти из столбца возраста. .

Почему мультиколлинеарность вызывает проблемы при построении статистических моделей обучения?

При построении регрессионной модели вы должны попытаться исключить все те переменные, которые имеют высокую корреляцию, потому что это делает коэффициенты переменных нестабильными, когда коэффициенты нестабильны, мы не можем полагаться на информацию о коэффициентах, которая является наиболее важной частью информацию, которую вы можете получить из моделей.

Мультиколлинеарность снижает точность оценочных коэффициентов, что ослабляет статистическую мощность вашей регрессионной модели. Возможно, вы не сможете доверять p-значениям для определения независимых переменных, которые являются статистически значимыми.

Тестирование на мультиколлинеарность

Вы можете построить матрицу корреляции всех независимых переменных, чтобы обнаружить переменные с высокой степенью корреляции.

В качестве альтернативы вы можете использовать VIF, который является коэффициентом инфляции дисперсии. Это число, которое представляет величину мультиколлинеарности для независимой переменной или величину мультиколлинеарности, которую эта переменная вносит в набор данных.

Если величина VIF выше, это означает, что переменная сильно коррелирует с какой-то другой переменной в данных, если она ниже, то она не сильно коррелирует и приносит некоторую уникальную информацию в набор данных.

  • Граница VIF от 0 до бесконечности
  • Если VIF меньше 5, то эту переменную можно сохранить в наборе данных, и это означает, что эта переменная несет в данные некоторую уникальную информацию.
  • VIF, превышающий 5 или 10, указывает на высокую мультиколлинеарность между независимыми переменными, и эти переменные должны быть удалены из данных.
  • Удаление переменных с высоким VIF или величиной выше 5 не следует делать сразу, это следует делать поэтапно, так как на каждой итерации будут меняться коэффициенты переменных, также будут меняться значения p и переменные, которые были на грани становления значимым может попадать в критерии менее 5.

Конечные примечания

Мультиколлинеарность влияет на коэффициенты и p-значения, но не влияет на прогнозы, точность прогнозов и статистику согласия. Если ваша основная цель состоит в том, чтобы делать прогнозы, и вам не нужно понимать роль каждой независимой переменной, вам не нужно уменьшать серьезную мультиколлинеарность.