Как работа с переменными-предикторами может спасти жизнь вашей модели MLR

Во-первых, мы должны понять, что такое MLR (сокращение от множественной линейной регрессии), чтобы полностью понять концепцию мультиколлинеарности.

MLR оценивает взаимосвязь между одной переменной ответа (также известной как зависимая переменная) с двумя или более переменными-предикторами (также известными как независимая переменная). Например, прибыль является зависимой переменной и полностью зависит от независимых переменных, таких как количество продукта, стоимость проданных товаров, административные расходы и т. Д., И никогда не бывает иначе. Прибыль будет линейно зависеть от всех этих независимых переменных. Мы увидим реальный пример MLR по мере прохождения поста, который показывает, как bmi, возраст или курение кого-либо может напрямую влиять на его страховые сборы. Мы увидим, как наличие мультиколлинеарности может нанести ущерб вашей модели MLR.

ПОНИМАНИЕ МОДЕЛИ MLR И ЕЕ ПАРАМЕТРОВ:

Типичное уравнение MLR будет выглядеть следующим образом:

заряды = β0 + β1.bmi + β2.age + β3.sex + β4 .children + β5.region + β5.smoker + ϵ

сборы = переменная ответа, обычно обозначаемая буквой Y

bmi, возраст, пол, дети, регион, курильщик = переменные-предикторы, обозначаемые X1, X2, X3 и X4 соответственно.

β0 = пересечение Y (всегда константа)

β1, β2, β3, β4, β5 = коэффициенты регрессии

ϵ = Условия ошибки (Остаточные ошибки)

Важное допущение при создании модели MLR заключается в том, что переменные-предикторы не должны сильно коррелировать между собой. Хорошая модель MLR будет соответствовать следующему процессу, т. Е. Если bmi увеличивается на β1 единиц, переменная сборов увеличится на 1 единицу, при сохранении постоянных других переменных-предикторов, а если возраст увеличится на β2 единиц, переменная начислений увеличится на 1 единицу. сохранение других переменных-предикторов, включая постоянную bmi. Если модель не соответствует этому предположению, мы скажем, что переменные-предикторы демонстрируют высокую мультиколлинеарность.

Итак, что такое мультиколлинеарность?

Вы встретите этот термин, когда только начнете свой путь к машинному обучению. Термин, который поначалу звучит многообещающе, но, надеюсь, вы освоите этот термин, когда погрузитесь в предмет. Мультиколлинеарность можно определить как ситуацию, когда переменные-предикторы коррелируют друг с другом, а не просто связаны с переменной ответа. Давайте избавимся от технических терминов и разберемся с концепцией, представив некоторые реальные жизненные ситуации.

Случай 1. Отсутствие мультиколлинеарности

Представьте себе, что вы готовите вкусный стейк «Рибай» для своей семьи. Вы будете готовить мясо, добавляя такие ингредиенты, как соль, перец, розмарин, тимьян и, как рекомендует Гордон Рамзи, кусочек масла. Каждый ингредиент придаст вашему стейку аромат. Теперь, если эти ингредиенты не подавляют друг друга и не работают вместе, они создадут симфонию для ваших вкусовых рецепторов. Здесь ингредиенты - это переменные-предикторы, а профиль вкуса - это переменная вашего ответа. Поскольку эти ингредиенты не борются друг с другом, они будут сдерживать мультиколлинеарность. Давайте посмотрим на другой пример, приведенный ниже, чтобы еще лучше прояснить нашу концепцию.

Случай 2. Высокая мультиколлинеарность

Теперь визуализируйте, ваш ужин готов, и вы хотите отведать сладкое. Вы спешите на кухню и начинаете смешивать белую муку, какао-порошок, яйца и сахар только для того, чтобы понять, что в вашей банке осталось очень ограниченное количество белого сахара. Затем вы вспоминаете те времена, когда вы обычно пили кофе в закусочной Люка (отсылка к «Девушкам Гилмор» 😁), и что вы уже довольно давно копите те пакетики коричневого сахара. Вы заменяете белый сахар коричневым сахаром, делаете сладкое лакомство и избавляетесь от пристрастия. В этом случае белый и коричневый сахар сильно коррелируют друг с другом, и вам будет сложно сказать, какой сахар добавил сладости десерту. Точно так же вашей модели MLR становится сложно декодировать, какая переменная-предиктор действительно повлияла на вашу переменную ответа.

Иметь дело или не иметь дело ??

Даже если модель демонстрирует высокую мультиколлинеарность, коррелированные переменные не влияют на общую подгонку модели и не влияют на прогнозы. Короче говоря, это не влияет на статистику хорошего соответствия. Как вы видели в нашем примере с белым / коричневым сахаром, общая сладость десерта не пострадает. Следовательно, если вы не заинтересованы в расшифровке влияния каждого отдельного предиктора на вашу модель, вам не нужно беспокоиться об удалении переменных.

Когда это проблема вашей модели?

Это проблема, потому что это подрывает статистическую значимость переменных-предикторов, поскольку увеличивает стандартную ошибку коэффициентов, что означает, что это увеличивает дисперсию коэффициентов, делая предикторы очень незначимыми. Теперь, даже если ваша модель по-прежнему сможет делать хорошие прогнозы, качество будет снижено, поскольку ваша модель не обучена различать влияние каждой переменной-предиктора на переменную ответа.

Обнаружение проблемы !!!

VIF: это количественный показатель, который показывает, насколько одна переменная-предиктор коррелирует с любыми другими переменными-предикторами. Например, VIF, равный 1,7, означает, что дисперсия конкретного коэффициента на 70% больше, чем она должна быть, если бы мультиколлинеарность отсутствовала.

Обычно обозначается как 1/1-R2.

Общее практическое правило, предписанное отраслевыми стандартами:

а) VIF ≥ 5: следует лечить сильно коррелированные и переменные

б) 1 ›VIF› 5: средний коррелированный, но приемлемый

c) VIF = 1: не коррелирован

Диагностика основных симптомов:

  1. Матрица корреляции. Матрица корреляции, которую можно визуализировать с помощью инструмента тепловой карты, поможет нам выполнить двумерный численный анализ и может показать нам, как одна переменная коррелирует с другой переменной. (Обратите внимание, что корреляционная матрица сравнивает одну-одну переменную за раз, тогда как VIF коррелирует одну переменную со всеми другими числовыми переменными.) Эта матрица может дать нам четкое представление о том, как работать с сильно коррелированными переменными. и указывают нам на игнорирование тех переменных, которые кажутся менее коррелированными. (Внимание: высокий коэффициент корреляции означает, что две переменные сильно коррелированы, но не всегда означает, что VIF всегда высок)

2. P-значение: второй уровень диагностики связан с проверкой p-значения каждой переменной. Если p-значение переменных больше 0,05, то их можно назвать статистически незначимыми и такие значения лучше удалить перед рассмотрением VIF.

Настройка переменных-предикторов:

  1. Проверьте, не превышают ли p-значения переменных-предикторов 0,05, чтобы удалить эти переменные. Удаление таких переменных улучшит VIF каждой переменной.
  2. Проверьте, есть ли переменные, которые не имеют никакого смысла для бизнес-области и основной постановки проблемы. Вы можете проверить тепловую карту корреляции, чтобы увидеть, актуальны ли определенные переменные для MLR. Например, если вы видите, что между обвинениями и полом есть отношение -0,058, значит, они связаны только на 5,8%. Отбросьте такие значения, чтобы улучшить значения VIF.
  3. Если вы все еще видите, что VIF одной или нескольких переменных оказывается больше 5,00, даже если вы обработали их двумя способами. Удаление таких высоких переменных VIF значительно улучшит VIF других оставшихся переменных.

Постобработка:

Обновленная модель будет иметь значения VIF ниже 5,00 и значения p ниже 0,05.

Обработанные p-значения:

Обработанный VIF:

Заключение. Конечная цель этого упражнения - помочь вам создать наилучшую возможную модель MLR, чтобы делать более точные прогнозы для решения реальных проблем.

Не стесняйтесь обращаться ко мне, если у вас возникнут какие-либо вопросы, связанные с аналитикой данных .. Еще больше !!!

Прощай !! 😊