Мотивация использования перекрестной проверки
Перекрестная проверка (также известная как оценка ротации или тестирование вне выборки) - это один из методов повторной выборки, используемых для: -
• Оценка модели (оценка эффективности модели).
• Выбор модели (выбор соответствующего уровня гибкости модели)
Перекрестная проверка оценивает эффективность прогнозных моделей и оценивает, как они работают вне выборки на независимом наборе данных. Проще говоря, он проверяет, можно ли обобщить модель.
Обычные методы оценки модели:
Подход с использованием проверочного набора (разделение данных)
В этом подходе набор наблюдений случайным образом делится на обучающий набор и набор проверки. Чаще используется соотношение 70/30 или 80/20, хотя точное соотношение зависит от размера данных.
Модель настраивается на обучающий набор, а затем подобранная модель используется для прогнозирования ответов на наблюдение в проверочном наборе. Результирующая частота ошибок набора для проверки дает оценку частоты ошибок теста. Частота ошибок может быть измерена с использованием соответствующей метрики ошибки, такой как среднеквадратичная ошибка (MSE), среднеквадратичная ошибка (RMSE) или средняя абсолютная процентная ошибка (MAPE), в зависимости от типа ответа.
Преимущество: -
• Просто и легко реализовать
• В вычислительном отношении дешево
Недостаток: -
• Частота ошибок может иметь высокую дисперсию, в зависимости от того, какие точки данных попадают в набор для обучения и набор для проверки.
• Переоцените ошибку теста. Помните, что статистический метод имеет тенденцию работать хуже, когда тренируется на меньших наблюдениях. В этом методе хороший фрагмент наблюдений находится в проверочном наборе, а остальные - в обучающем наборе.
Перекрестная проверка без исключения (LOOCV)
В LOOCV данные разделяются таким образом, что все точки данных (n-1) включены в обучающий набор кроме одной точки данных, которая включена в набор проверки. . Метод повторяется до тех пор, пока каждая точка данных не будет использоваться в качестве набора для проверки. Для оценки модели рассчитывается средняя ошибка.
Преимущество: -
• Менее предвзятый. Поскольку размер обучающей выборки включает почти все наблюдения (n-1), тенденция к переоценке ошибки почти незначительна по сравнению с подходом с использованием набора проверки.
Недостаток: -
- Вычислительно дорого (модель нужно подогнать n раз).
Для линейной регрессии есть ярлык, который снижает стоимость LOOCV:
k-кратная перекрестная проверка
В этом методе данные случайным образом разбиваются на k подмножеств примерно равного размера. Одновременно одна кратность обрабатывается как набор проверки, а остальные складки (k-1) как обучающая выборка. Процесс повторяется до тех пор, пока каждая свертка не будет использована в качестве набора для проверки, то есть k раз. Оценка k-кратного CV рассчитывается путем взятия среднего из k оценок ошибки теста.
Преимущество: -
• Этот метод снижает влияние разделения данных. Каждая точка данных попадает в тестовый набор один раз и попадает в обучающий набор k-1 раз. Дисперсия оценки уменьшается с увеличением k.
Недостаток: -
• Поскольку модель обучается на меньшем количестве данных по сравнению с LOOCV, это вносит систематическую ошибку в оценки ошибки теста.
Компромисс смещения и дисперсии для k-кратного CV
• Смещение - это тенденция статистической выборки систематически переоценивать или недооценивать параметр генеральной совокупности. Что касается уменьшения смещения, LOOCV лучше, чем K-кратное CV, поскольку для обучения модели используется выборка n-1, которая так же хороша, как и полный набор данных. .
• Дисперсия измеряет, насколько набор точек данных отличается от своего среднего значения. Среднее значение сильно коррелированных значений имеет более высокую дисперсию, чем среднее значение менее коррелированных значений. Поскольку в LOOCV набор обучающих данных почти одинаков в каждой подобранной модели, выходные данные каждой модели сильно коррелированы, что приводит к более высокой дисперсии, чем K-кратное CV
Чем больше значение k, тем меньше будет дисперсия и больше будет смещение, тогда как уменьшение k приведет к увеличению дисперсии и уменьшению смещения. Принимая во внимание эти соображения, k = 5 или k = 10 дает золотую середину, в которой сбалансированы смещение и дисперсия.
Выбираем лучшую модель
• В задаче регрессии
Для метода, который дает самую низкую ошибку теста, мы ищем положение точки минимума на расчетной тестовой кривой MSE.
Хотя оценки ошибки CV отличаются от фактической ошибки теста, модель с минимальной ошибкой перекрестной проверки часто имеет относительно небольшую ошибку теста.
- В проблеме классификации
Перекрестная проверка может использоваться для выбора лучшей модели путем выбора модели с минимальной оценкой ошибки перекрестной проверки. На изображении ниже оценка ошибки 10 FOLD CV дает хорошее приближение к частоте ошибок теста.
Возьмите на заметку: - Перекрестная проверка - полезный инструмент для оценки эффективности модели, особенно для обработки переобучения и недостаточного соответствия.
Короче говоря, каждый аспект метода обучения, связанный с данными, должен подвергаться перекрестной проверке.
Использованная литература:
- Дж. Джеймс, Д. Виттен, Т. Хасти, Р. Тибширани. Введение в статистическое обучение: с приложениями в R (тексты Springer в статистике). (2013).