Эта сессия направлена ​​на объяснение регрессионной модели обучения с учителем. Как уже упоминалось несколькими способами, ML имеет несколько типов. Один из них – контролируемое обучение. В рамках обучения с учителем существуют две модели, так называемые «Регрессия» и «Классификация».

Пример будет обработан для регрессии.

Задача; Прогноз для Хауса

Решение;

Шаг 1. Обзор данных

На шаге 1 отображается сводка данных.

Шаг 2. Спецификация зависимых и независимых значений

Здесь зависимое значение было получено под именем «y». И независимое значение было получено под именем «X» путем удаления других столбцов.

Шаг 3. Разделение основных данных

X_train и y_train используются для создания модели, а X_test и y_test используются для тестирования модели. Они состоят из независимых и зависимых значений. Test_size показывает долю данных, реализованных для «Теста». Если какое-либо значение не определено, по умолчанию принимается 0,25. Random_State — каждый раз вызывать одно и то же значение.

Шаг 4. Подгонка данных

На этом этапе мы сначала сопоставим данные с помощью линейной регрессии, а затем полиномиальной регрессии.

Почему полиномиальная или линейная регрессия?

В простом алгоритме линейной регрессии работает только тогда, когда связь между данными является линейной. Но предположим, что если у нас есть нелинейные данные, то линейная регрессия не сможет провести наилучшую линию, и в таких условиях она не работает. Рассмотрим приведенную ниже диаграмму, которая имеет нелинейную зависимость, и вы можете увидеть на ней результаты линейной регрессии, которые не работают хорошо, что означает, что они не приближаются к реальности.

Линейная регрессия

С помощью модели линейной регрессии мы предсказали y_test по X_test. «y_test_pred» и «Y_test» можно сравнивать напрямую. Но это сравнение или оценка будет выполняться с помощью метрик. Затем будет создан новый фрейм данных для сравнения y_test_pred и Y_test.

Теперь мы должны оценить модель. В этом аккаунте уже была записана одна статья о том, как использовать оценочные метрики. Но прежде те же шаги будут применены к поездной части данных.

Метрики выглядят так для «Теста»;

Метрики выглядят так для «Поезда»;

Как видно, показатели в обоих подмножествах данных близки друг к другу. Но кажется, что распределение на диаграмме рассеяния подходит для полиномиальной регрессии.

Полиномиальная регрессия

Теперь аналогичный процесс будет выполняться с полиномиальной регрессией. Уже есть «Х» и «У».

  • Здесь будет выбрана степень и выполнено преобразование.

  • Поскольку мы преобразовали данные, здесь будет использоваться линейная регрессия.

  • После выполнения необходимых шагов сравнение будет превышено.

Можно сказать, что полиномиальная степень 2 больше подходит для этого набора данных. Потому что заметная разница возникает между этими двумя регрессионными моделями.

— Если есть большая разница между оценками для Train и Test, можно сказать, что возникают какие-то проблемы, такие как недообучение или переоснащение.

— Чтобы увидеть, где возникает большая разница между поездом и тестовым набором, полином должен быть выполнен во многих других степенях.

Сделанный вывод состоит в том, что проблема переобучения возникает после степени 2. Это означает, что степень 2 может быть принята.

Провал также можно было увидеть на графике.