Мотивация использования перекрестной проверки

Перекрестная проверка (также известная как оценка ротации или тестирование вне выборки) - это один из методов повторной выборки, используемых для: -

Оценка модели (оценка эффективности модели).

Выбор модели (выбор соответствующего уровня гибкости модели)

Перекрестная проверка оценивает эффективность прогнозных моделей и оценивает, как они работают вне выборки на независимом наборе данных. Проще говоря, он проверяет, можно ли обобщить модель.

Обычные методы оценки модели:

Подход с использованием проверочного набора (разделение данных)

В этом подходе набор наблюдений случайным образом делится на обучающий набор и набор проверки. Чаще используется соотношение 70/30 или 80/20, хотя точное соотношение зависит от размера данных.

Модель настраивается на обучающий набор, а затем подобранная модель используется для прогнозирования ответов на наблюдение в проверочном наборе. Результирующая частота ошибок набора для проверки дает оценку частоты ошибок теста. Частота ошибок может быть измерена с использованием соответствующей метрики ошибки, такой как среднеквадратичная ошибка (MSE), среднеквадратичная ошибка (RMSE) или средняя абсолютная процентная ошибка (MAPE), в зависимости от типа ответа.

Преимущество: -

• Просто и легко реализовать

• В вычислительном отношении дешево

Недостаток: -

• Частота ошибок может иметь высокую дисперсию, в зависимости от того, какие точки данных попадают в набор для обучения и набор для проверки.

Переоцените ошибку теста. Помните, что статистический метод имеет тенденцию работать хуже, когда тренируется на меньших наблюдениях. В этом методе хороший фрагмент наблюдений находится в проверочном наборе, а остальные - в обучающем наборе.

Перекрестная проверка без исключения (LOOCV)

В LOOCV данные разделяются таким образом, что все точки данных (n-1) включены в обучающий набор кроме одной точки данных, которая включена в набор проверки. . Метод повторяется до тех пор, пока каждая точка данных не будет использоваться в качестве набора для проверки. Для оценки модели рассчитывается средняя ошибка.

Преимущество: -

Менее предвзятый. Поскольку размер обучающей выборки включает почти все наблюдения (n-1), тенденция к переоценке ошибки почти незначительна по сравнению с подходом с использованием набора проверки.

Недостаток: -

  • Вычислительно дорого (модель нужно подогнать n раз).

Для линейной регрессии есть ярлык, который снижает стоимость LOOCV:

k-кратная перекрестная проверка

В этом методе данные случайным образом разбиваются на k подмножеств примерно равного размера. Одновременно одна кратность обрабатывается как набор проверки, а остальные складки (k-1) как обучающая выборка. Процесс повторяется до тех пор, пока каждая свертка не будет использована в качестве набора для проверки, то есть k раз. Оценка k-кратного CV рассчитывается путем взятия среднего из k оценок ошибки теста.

Преимущество: -

• Этот метод снижает влияние разделения данных. Каждая точка данных попадает в тестовый набор один раз и попадает в обучающий набор k-1 раз. Дисперсия оценки уменьшается с увеличением k.

Недостаток: -

• Поскольку модель обучается на меньшем количестве данных по сравнению с LOOCV, это вносит систематическую ошибку в оценки ошибки теста.

Компромисс смещения и дисперсии для k-кратного CV

• Смещение - это тенденция статистической выборки систематически переоценивать или недооценивать параметр генеральной совокупности. Что касается уменьшения смещения, LOOCV лучше, чем K-кратное CV, поскольку для обучения модели используется выборка n-1, которая так же хороша, как и полный набор данных. .

• Дисперсия измеряет, насколько набор точек данных отличается от своего среднего значения. Среднее значение сильно коррелированных значений имеет более высокую дисперсию, чем среднее значение менее коррелированных значений. Поскольку в LOOCV набор обучающих данных почти одинаков в каждой подобранной модели, выходные данные каждой модели сильно коррелированы, что приводит к более высокой дисперсии, чем K-кратное CV

Чем больше значение k, тем меньше будет дисперсия и больше будет смещение, тогда как уменьшение k приведет к увеличению дисперсии и уменьшению смещения. Принимая во внимание эти соображения, k = 5 или k = 10 дает золотую середину, в которой сбалансированы смещение и дисперсия.

Выбираем лучшую модель

В задаче регрессии

Для метода, который дает самую низкую ошибку теста, мы ищем положение точки минимума на расчетной тестовой кривой MSE.

Хотя оценки ошибки CV отличаются от фактической ошибки теста, модель с минимальной ошибкой перекрестной проверки часто имеет относительно небольшую ошибку теста.

  • В проблеме классификации

Перекрестная проверка может использоваться для выбора лучшей модели путем выбора модели с минимальной оценкой ошибки перекрестной проверки. На изображении ниже оценка ошибки 10 FOLD CV дает хорошее приближение к частоте ошибок теста.

Возьмите на заметку: - Перекрестная проверка - полезный инструмент для оценки эффективности модели, особенно для обработки переобучения и недостаточного соответствия.

Короче говоря, каждый аспект метода обучения, связанный с данными, должен подвергаться перекрестной проверке.

Использованная литература:

  1. Дж. Джеймс, Д. Виттен, Т. Хасти, Р. Тибширани. Введение в статистическое обучение: с приложениями в R (тексты Springer в статистике). (2013).