30 дней Data Science — День 4: Оценка регрессионных моделей

В последних статьях я рассмотрел базовые модели линейной регрессии, которые представляют собой простую линейную регрессию и множественную линейную регрессию. Если вы их не читали, я оставлю их здесь:

30 дней изучения данных — День 2: простая линейная регрессия
Хотите узнать больше о машинном обучении? Если да, то линейная регрессия — отличное место для начала!medium.com

30 дней изучения данных — День 3. Множественная линейная регрессия
Старший брат простой линейной регрессии, теперь с более чем одной независимой переменной!medium.com

Эти модели — отличное начало нашего пути к машинному обучению, но мы не упомянули о важном этапе обучения любой модели, который позволит нам проверить, насколько ошибочны наши прогнозы: оценка.

Что такое оценка?

Идея создания моделей машинного обучения непроста. Он работает по принципу конструктивной обратной связи. Вы строите модель, получаете обратную связь от оценки, вносите улучшения и продолжаете, пока не достигнете желаемой точности.

Оценка модели — это процесс использования различных показателей оценки для понимания производительности модели машинного обучения, а также ее сильных и слабых сторон.

Почему мы должны оценивать?

Когда я впервые услышал слово «машинное обучение», я подумал, что люди имеют влияние только на этапах подготовки данных и что сопоставление данных с моделью будет почти автоматическим. Во время этого пути обучения я узнал, что это предвзятое мнение даже близко не соответствует действительности и что на самом деле это повторяющийся процесс, основанный на постоянной обратной связи.

Показатели оценки имеют решающее значение, поскольку они позволяют нам количественно оценить производительность модели и отслеживать ее с течением времени,а такжеделая возможным сравнение между моделями, имея возможность сравнивать яблоки с яблоками (используя те же данные для обучения, конечно).

Важно оценить вашу модель, чтобы увидеть, обучается ли она или просто запоминает данные. Если это просто запоминание, модель будет хорошо работать только с данными, которые она уже знает, и не сможет эффективно изучать новые данные. .Таким образом, важно использовать несколько показателей оценки при тестировании модели, чтобы убедиться, что она работает правильно.

Переоснащение и недообучение

Переобучение: это происходит, когда модель машинного обучения слишком хорошо адаптируется к данным, на которых она обучалась, и поэтому ее нельзя использовать с другими данными. Модель переоснащен, когда он слишком специфичен для исходных данных, и поэтому попытка использовать его для других данных в будущем приведет к плохим результатам.
Недостаточная подгонка. Если модель машинного обучения недостаточно сложна, она может быть не в состоянии точно понять взаимосвязь между различными функциями в наборе данных и ожидаемый результат. Это называется недообучением. В случае недообучениямодель может плохо работать с новыми данными или данными, на которых она не обучалась.Кроме того,модель может работать плохо даже при просмотре данных, на которых она была обучена. тренировался.

Роль данных

Самое важное, что вы можете сделать для правильной оценки своей модели, — это не обучать модель всему набору данных. Повторюсь: не тренируйте модель на всем наборе данных. Типичное разделение обучения/тестирования будет заключаться в использовании 70% данных для обучения и 30% данных для тестирования.

При оценке нашей модели важно использовать новые данные, чтобы предотвратить вероятность переобучения тренировочного набора. Однако иногда полезно оценить нашу модель, когда мы ее строим, чтобы найти лучшие параметры модели. Чтобы сделать это без использования тестового набора, который мы хотим сохранить для оценки окончательной модели, мы создаем третье подмножество данных, известное как проверочный набор.

Типичное разделение обучения/тестирования/проверки будет заключаться в использовании 60% данных для обучения, 20% данных для проверки и 20% данных для тестирования.

Я также отмечу, что очень важно перетасовать (случайно смешать) данные перед тем, как делать эти разбиения, чтобы каждое разбиение имело точное представление набора данных.

Оценка модели линейной регрессии

Если вы не знаете, что такое проблемы регрессии, я предлагаю вам эту статью, которую я написал о них:

30 дней Data Science — День 1: Проблемы регрессии
Путешествие в тысячу миль начинается с одного шага.medium.com»

В резюме: регрессия относится к задачам прогнозного моделирования, которые включают прогнозирование числового значения.

Она отличается от классификации, которая предполагает предсказание метки класса (собака или кошка). В отличие от классификации, вы не можете использовать точность классификации (сколько догадок неточны и сколько правильны) для оценки прогнозов, сделанных регрессионной моделью.

Вместо этого вы должны использовать метрики ошибок, специально разработанные для оценки прогнозов, сделанных для задач регрессии. Эти метрикиподразумевают вычисление оценки ошибки, чтобы обобщить прогностические способности модели.

Это имеет смысл, если подумать. Если вы прогнозируете числовое значение, такое как рост или сумма в долларах, вам не нужно знать, точно ли модель предсказала значение (на практике это может быть невероятно сложно); вместо этого мы хотим знать, насколько прогнозы были близки к ожидаемым значениям.

Error решает именно эту проблему и суммирует в среднем, насколько прогнозы были близки к их ожидаемым значениям.

Среднеквадратическая ошибка

Среднеквадратическая ошибка, или сокращенно MSE, является популярной метрикой ошибок для задач регрессии. Это также важная функция потерь (оценка того, насколько неверны прогнозы на этапе обучения) для алгоритмов, подходящих (предположение об обобщении на обучающих данных) или оптимизированных (поиск как можно меньшего размера) с использованием формулировки методом наименьших квадратов задачи регрессии. .»

Здесь «наименьшие квадраты» означают минимизацию среднеквадратичной ошибки между прогнозами и ожидаемыми значениями.

Квадратизация также приводит к завышению или увеличению больших ошибок. Чем больше разница между прогнозируемыми и ожидаемыми значениями, тем больше результирующая квадратичная положительная ошибка. Это приводит к тому, что модели «наказывают» больше за большие ошибки, когда мы используем MSE в качестве потерь. функция. Этот метод также приводит к эффекту наказания моделей, завышая средний показатель ошибки при использовании в качестве показателя.

Отдельные члены ошибки усредняются, чтобы мы могли сообщить о производительности модели в отношении того, сколько ошибок модель делает при прогнозировании в целом, а не конкретно для примера.

При использовании его для сравнения всегда помните, что единицы MSE являются квадратными единицами. Например, если целевое значение представляет собой «доллары», то MSE будет «доллары в квадрате». Это может усложнить некоторых людей; поэтому при представлении результатов лучше использовать среднеквадратичную ошибку.

Идеальное среднеквадратичное значение ошибки равно 0,0, поэтому все прогнозы точно соответствуют ожидаемым значениям. Так почти никогда не бывает, и если это происходит, это говорит о том, что ваша проблема прогнозного моделирования тривиальна или что вы создали суперпрогнозирующую машину (шучу 😅).

Хорошая MSE зависит от вашего конкретного набора данных. Рекомендуется сначала установить базовую MSE (допустимую ошибку) для набора данных с помощью простой прогностической модели, такой как прогнозирование среднего целевого значения. strong> из обучающего набора данных.

Среднеквадратичная ошибка

Среднеквадратическая ошибка, или RMSE, является расширением среднеквадратичной ошибки. Важно, вычисляется квадратный корень ошибки, что означает, что единицы RMSE идентичны исходным единицам прогнозируемого целевого значения.

Например, если ваша целевая переменная имеет единицы измерения «доллары», то показатель ошибки RMSE также будет иметь единицу измерения «доллары», а не «доллары в квадрате», как MSE.

Таким образом, может быть распространено использование потери MSE для обучения модели прогнозирования регрессии, а также использование RMSE для оценки и отчета о ее производительности.

Обратите внимание, что RMSE не может быть рассчитан как среднее значение квадратного корня из значений среднеквадратичной ошибки. MSE использует квадратную операцию для удаления знака каждого значения ошибки и наказания за большие ошибки. Квадратный корень обращает эту операцию, хотя и гарантирует, что результат останется положительным.

Идеальное значение RMSE равно 0,0, что означает, что все прогнозы точно соответствуют ожидаемым значениям. Это почти никогда не бывает, и если это происходит, это говорит о том, что ваша проблема прогнозного моделирования тривиальна. Хороший RMSE зависит от вашего конкретного набора данных.

Средняя абсолютная ошибка

Средняя абсолютная ошибка, или MAE, является популярной метрикой, потому что, как и RMSE, единицы оценки ошибки соответствуют единицам прогнозируемого целевого значения.

MSE и RMSE наказывают за большие ошибки больше, чем за мелкие ошибки, завышая или увеличивая средний балл ошибки. Это связано с квадратом значения ошибки. MAE не придает больше или меньше веса различным типам ошибок, вместо этого баллы увеличиваются линейно с увеличением ошибки.

Как следует из названия, оценка MAE рассчитывается как среднее значение абсолютных значений ошибки. Абсолют — это математическая функция, которая просто делает число положительным.

Следовательно, разница между ожидаемым и прогнозируемым значением может быть положительной или отрицательной и должна быть положительной при расчете MAE.

Идеальное среднее значение абсолютной ошибки равно 0,0, что означает, что все прогнозы точно соответствуют ожидаемым значениям. Это почти никогда не бывает, и если это происходит, это говорит о том, что ваша проблема прогнозного моделирования тривиальна. Хороший MAE зависит от вашего конкретного набора данных.

Квадрат R (R²)

Вот отличный ресурс с визуализациями, чтобы лучше понять R-квадрат.

R² измеряет, насколько изменчивость нашего предиктора (зависимой переменной) может быть объяснена моделью. Это квадрат коэффициента корреляции (R), поэтому он называется R-квадрат.

R Квадрат вычисляется как сумма квадрата ошибки прогноза, деленная на общую сумму квадрата, который заменяет рассчитанный прогноз средним значением. R² — это одно дополнение отношения между этими двумя MSE.

Показатель R² варьируется от -∞ до 1. Чем ближе к 1 R², тем лучше модель регрессии. Если R² равно 0, модель не работает лучше, чем случайная модель.

Если R² отрицательное, регрессионная модель ошибочна. Поэтому эта последняя метрика машинного обучения является отличным инструментом для оценки эффективности регрессионной модели.

Подведение итогов

Важно оценить свои модели машинного обучения, чтобы увидеть, насколько хорошо они работают, когда сталкиваются с невидимыми данными. Это позволяет вам ответить на такие вопросы, как: Насколько хорошо работает моя модель? Это полезная модель? Повысит ли производительность моей модели обучение на большем количестве данных? Нужно ли включать дополнительные функции?

Бывают случаи, когда наши модели изучают данные почти по памяти (переоснащение) или когда их обучение очень расплывчато (недообучение), что является проблемой при использовании этих моделей для реальных прогнозов. Оценка является ключом к тому, чтобы избежать этих проблем.

Мы рассчитываем на несколько показателей для проведения оценок, и у каждого из них есть свои плюсы и минусы. Важно использовать несколько показателей, чтобы получить гораздо более полную картину, но оценка R² отлично справляется с подведением итогов регрессии.

Вот и все! Спасибо за чтение, и я надеюсь, что эта статья была полезной для вас. Следите за новыми статьями на моем сайте Data and me, где я пишу о своем пути к машинному обучению:

Данные и я
Добро пожаловать в эту публикацию о моем пути к тому, чтобы стать самообучающимся специалистом по данным!medium.com