Эта сессия направлена на объяснение регрессионной модели обучения с учителем. Как уже упоминалось несколькими способами, ML имеет несколько типов. Один из них – контролируемое обучение. В рамках обучения с учителем существуют две модели, так называемые «Регрессия» и «Классификация».
Пример будет обработан для регрессии.
Задача; Прогноз для Хауса
Решение;
Шаг 1. Обзор данных
На шаге 1 отображается сводка данных.
Шаг 2. Спецификация зависимых и независимых значений
Здесь зависимое значение было получено под именем «y». И независимое значение было получено под именем «X» путем удаления других столбцов.
Шаг 3. Разделение основных данных
X_train и y_train используются для создания модели, а X_test и y_test используются для тестирования модели. Они состоят из независимых и зависимых значений. Test_size показывает долю данных, реализованных для «Теста». Если какое-либо значение не определено, по умолчанию принимается 0,25. Random_State — каждый раз вызывать одно и то же значение.
Шаг 4. Подгонка данных
На этом этапе мы сначала сопоставим данные с помощью линейной регрессии, а затем полиномиальной регрессии.
Почему полиномиальная или линейная регрессия?
В простом алгоритме линейной регрессии работает только тогда, когда связь между данными является линейной. Но предположим, что если у нас есть нелинейные данные, то линейная регрессия не сможет провести наилучшую линию, и в таких условиях она не работает. Рассмотрим приведенную ниже диаграмму, которая имеет нелинейную зависимость, и вы можете увидеть на ней результаты линейной регрессии, которые не работают хорошо, что означает, что они не приближаются к реальности.
Линейная регрессия
С помощью модели линейной регрессии мы предсказали y_test по X_test. «y_test_pred» и «Y_test» можно сравнивать напрямую. Но это сравнение или оценка будет выполняться с помощью метрик. Затем будет создан новый фрейм данных для сравнения y_test_pred и Y_test.
Теперь мы должны оценить модель. В этом аккаунте уже была записана одна статья о том, как использовать оценочные метрики. Но прежде те же шаги будут применены к поездной части данных.
Метрики выглядят так для «Теста»;
Метрики выглядят так для «Поезда»;
Как видно, показатели в обоих подмножествах данных близки друг к другу. Но кажется, что распределение на диаграмме рассеяния подходит для полиномиальной регрессии.
Полиномиальная регрессия
Теперь аналогичный процесс будет выполняться с полиномиальной регрессией. Уже есть «Х» и «У».
- Здесь будет выбрана степень и выполнено преобразование.
- Поскольку мы преобразовали данные, здесь будет использоваться линейная регрессия.
- После выполнения необходимых шагов сравнение будет превышено.
Можно сказать, что полиномиальная степень 2 больше подходит для этого набора данных. Потому что заметная разница возникает между этими двумя регрессионными моделями.
— Если есть большая разница между оценками для Train и Test, можно сказать, что возникают какие-то проблемы, такие как недообучение или переоснащение.
— Чтобы увидеть, где возникает большая разница между поездом и тестовым набором, полином должен быть выполнен во многих других степенях.
Сделанный вывод состоит в том, что проблема переобучения возникает после степени 2. Это означает, что степень 2 может быть принята.
Провал также можно было увидеть на графике.