7 важных шагов, которые следует учитывать при создании хорошей модели линейной регрессии

Что такое линейная регрессия?

Линейная регрессия — это алгоритм машинного обучения, который оценивает, как модель следует линейной зависимости между одной переменной отклика (обозначается y) и одной или несколькими независимыми переменными (обозначается X1, X2, X3…. Xn). Переменная ответа будет зависеть от того, как изменяются независимые переменные, а не наоборот. Переменная отклика также известна как целевая или зависимая переменная, а объясняющая переменная известна как независимая или предикторная переменная.

Существует два типа линейной регрессии:

1. Простая линейная регрессия

2. Множественная линейная регрессия

Простая линейная регрессия. Это тип модели линейной регрессии, в которой есть только независимая или независимая переменная. Например, приведенный выше график рассеяния следует простой линейной регрессии, где возраст является независимой переменной, ответственной за любое изменение роста (зависимая переменная).

Множественная линейная регрессия. Она похожа на простую линейную регрессию, но здесь у нас более одной независимой или независимой переменной.

Линейная регрессия может быть математически записана следующим образом:

Y = β0 + β1.X1 + β2. X2 + β3. X3 + β4. X4+ β5. X5 + β5. X6 + ϵ

начисления = β0 + β1.ИМТ + β2.возраст+ β3.пол + β4.дети+ β5.регион + β5.курильщик + ϵ

Сборы = переменная ответа, обычно обозначаемая буквой Y.

ИМТ, возраст, пол, дети, регион, курильщик = переменные-предикторы, обозначенные X1, X2, X3 и X4 соответственно.

β0 =Y-отрезок (всегда константа)

β1, β2, β3, β4, β5 =коэффициенты регрессии

ϵ = условия ошибки (остатки)

Компоненты линейной регрессии:

1. Коэффициент регрессии (или β1):

Коэффициент регрессии в приведенном выше уравнении говорит об изменении значения зависимой переменной, соответствующем единичному изменению независимой переменной. Так, например. если X1 увеличивается или уменьшается на одну единицу, то Y увеличивается или уменьшается на β1 единиц. Важное допущение, которому следует идеальная линейная регрессия, заключается в том, что любое увеличение или уменьшение одной независимой переменной не будет иметь соответствующих изменений в других независимых переменных.

2. Пересечение (или β0):

Перехват — это постоянное значение, которое сообщает нам, в какой точке графика координат x-y должна начинаться линия регрессии, если она следует за линейной регрессией. Поскольку это постоянное значение, следовательно, оно не зависит от каких-либо изменений независимых переменных. Даже если значения X=0, точка пересечения будет иметь постоянное значение. Если значение перехвата равно 0, это означает, что линия начнется в исходной точке (0,0).

3. Ошибочные термины или остатки (ϵ):

Это разница между фактической и прогнозируемой точкой данных на графике координат x-y.

Цель линейной регрессии:

Цель линейной регрессии состоит в том, чтобы выполнять прогностическую аналитику, и это достигается за счет того, что машина изучает науку о создании обученной (наиболее подходящей) линии, которая очень хорошо обобщает, как будут оцениваться новые и неизвестные данные (тестовый набор или новый набор данных). и как подобранная линия сможет точно оценить новые или неизвестные наборы данных.

Этапы, которые необходимо выполнить в алгоритме линейной регрессии:

1. Чтение и понимание данных

а. Импорт необходимых библиотек, таких как pandas и numpy для анализа и обработки данных, а также seaborn и matplotlib для визуализации данных.

б. Очистка и манипулирование данными, чтобы привести их в соответствие со стандартами, которые может выполнять исследовательский анализ данных, путем обработки нулевых значений, если таковые имеются, обновления до необходимых форматов, изменения типов данных, если необходимо, удаления ненужных строк или столбцов и т. д. Необработанные данные в любом состоянии, в котором вы get должен быть тщательно очищен от любой грязи, прежде чем оценивать его для визуализации.

2. Визуализация данных (исследовательский анализ данных)

а. Визуализация числовых переменных с использованием точечных или парных диаграмм для интерпретации выводов о бизнесе или предметной области.

б. Визуализация категориальных переменных с использованием гистограмм или диаграмм для интерпретации выводов о бизнесе или предметной области.

3. Подготовка данных

а. Преобразование категориальных переменных с различной степенью уровней в фиктивные переменные (числовые по своей природе), чтобы эти переменные могли быть представлены во время построения модели, чтобы внести свой вклад в наилучшую подогнанную линию для лучшего прогнозирования.

4. Разделение данных на наборы для обучения и тестирования

а. Разделение данных на два раздела, чтобы обучить подмножество набора данных для создания обученной (подогнанной) линии, которая очень хорошо обобщает, как будут оцениваться новые и неизвестные данные (тестовый набор или новый набор данных) и как будет подобранная линия в состоянии точно оценить новые или неизвестные наборы данных. Как правило, соотношение между поездом и тестом составляет 70:30 или 80:20.

б. Изменение масштаба обученной модели: это метод, используемый для нормализации диапазона числовых переменных с различной степенью величины. Например, рост, ИМТ или возраст имеют разную величину и единицы, или какой-либо признак может иметь значения в 10000 с, в то время как признак может содержать значения в 10 или 100 с, тогда вклад каждого признака в зависимую переменную будет разным

5. Построение линейной модели

а. Прямой выбор: мы начинаем с нулевой модели и добавляем переменные одну за другой. Эти переменные выбираются на основе высокой корреляции с целевой переменной. Сначала мы выбираем тот, у которого самая высокая корреляция, затем мы переходим ко второму по величине и так далее.

б. Обратный отбор: мы добавляем все переменные сразу, а затем исключаем переменные на основании высокой мультиколлинеарности (VIF>5) или незначительности (высокие значения p).

в. RFE или рекурсивное устранение признаков больше похоже на автоматизированную версию метода выбора признаков, где мы выбираем нужные нам «m» переменных из «n», а затем машина предоставляет список признаков с уровнем важности, заданным с точки зрения ранжирования. Ранг 1 означает, что функция важна для модели, а ранг 4 означает, что нам будет лучше, если мы не будем учитывать эту функцию.

6. Остаточный анализ данных поезда:

а. Он говорит нам, насколько ошибки (y_actual — y_pred) распределены по модели. Хороший остаточный анализ будет означать, что среднее значение сосредоточено вокруг 0.

7. Создание прогнозов с использованием окончательной модели и оценки:

а. Мы будем прогнозировать тестовый набор данных, преобразуя его в обученный набор данных.

б. Разделите наборы тестов на X_test и y_test и рассчитайте r2_scoreнабора тестов. Поезд и тестовый набор должны иметь одинаковые r2_score. Разница в 2–3 % между r2_score поезда и тестовой оценкой является приемлемой в соответствии со стандартами.

В случае любого запроса, связанного с аналитикой данных… Не стесняйтесь связаться со мной.. Adios.😊