Недавно я сделал презентацию о перекрестной проверке K-Folds. Перекрестная проверка K-Folds - это один из методов, который пытается максимально использовать доступные данные для обучения и последующего тестирования модели. Это особенно полезно для оценки производительности модели, так как дает ряд оценок точности для (несколько) разных наборов данных.

Перекрестная проверка K-Folds довольно проста. Это расширение разделения "поезд-тест", в котором данные разделяются на обучающий набор, используемый для соответствия модели, и набор для тестирования, используемый для определения того, насколько хорошо модель работает по соответствующей метрике производительности. Примерами показателей производительности являются точность, MSE или неверно классифицированные наблюдения.

При перекрестной проверке K-кратности данные делятся на k равных частей, как показано на рисунке ниже. С использованием данных выполняется k итераций построения и тестирования модели. Каждая из k частей используется в одной итерации как тестовые данные, а в других k-1 итерациях как часть обучающего набора. В конце можно проанализировать показатели производительности на разных итерациях, чтобы определить среднее значение, диапазон, стандартное отклонение или другую полезную метрику.

По мере разработки презентации мое понимание цели перекрестной проверки расширилось. Перекрестная проверка сама по себе не является инструментом подбора модели. В сочетании с инструментами моделирования, такими как линейная регрессия, логистическая регрессия или случайные леса. Перекрестная проверка позволяет определить, насколько хорошо модель соответствует как по точности (смещению), так и по дисперсии.