Часть 2: Глубокое понимание различных методов перекрестной проверки.

Это вторая часть серии перекрестных проверок, посвященная пониманию различных методов перекрестной проверки, их преимуществ и недостатков.

Первую часть о понимании основ перекрестной проверки можно прочитать здесь

Первая часть охватывает базовое введение в перекрестную проверку, как набор данных используется в качестве данных для обучения и тестирования, а также типы перекрестной проверки.

. . . . .

В этом посте рассматриваются различные типы методов перекрестной проверки. Если у вас возникли трудности с прочтением предыдущей статьи, вы можете прочитать «перекрестную проверку в машинном обучении» в Интернете.

Типы перекрестной проверки

Исчерпывающие методы перекрестной проверки – это методы перекрестной проверки, которые изучают и проверяют все возможные способы разделения исходной выборки на обучающую и проверочную выборку.

Неполные методы перекрестной проверки не учитывают все способы разделения исходных данных. То есть исходный набор данных не разбивается на все возможные перестановки и комбинации.

1. Метод удержания

Как и в обычной процедуре, мы разделим набор данных на обучение и тестирование. Мы обучаем модель, используя обучающие данные, а затем проверяем ее, используя тестовые данные.

Примечание. Размер обучающих данных должен быть больше, чем у тестовых данных. мы разделяем данные на 70/30 или 80/20.

Преимущества

  • Его хорошо использовать, когда у нас есть большой набор данных и нехватка времени.
  • Этот метод используется на начальном этапе построения модели.

Недостатки

  • Перед выплевыванием данные перемешиваются случайным образом. Поскольку модель обучается на разных комбинациях точек данных, она может давать разные результаты при каждом обучении; это вызывает нестабильность.
  • Мы никогда не можем гарантировать, что данные поезда являются представлением всего набора данных.
  • Когда исходный набор данных не слишком велик, существует высокая вероятность того, что данные тестирования могут содержать важную информацию, которую мы не обучаем.

2. K-кратная перекрестная проверка

  • Это улучшенная версия метода удержания. В задержке оценка модели зависит от данных обучения и тестирования, тогда как в K-кратном CV она не зависит от них.
  • Набор данных делится на «K» подмножеств, и метод удержания повторяется K раз.

Шаги резюме в k раз:

  • Случайно разбил весь набор данных на «K подмножеств».
  • Для каждого подмножества постройте модель на «K-1 складках» набора данных. затем протестируйте модель на «Kth fold».
  • Повторяйте это до тех пор, пока каждое из K подмножеств (K-сгибов) не послужит тестовым набором.
  • Среднее значение K-записи точности называется точностью перекрестной проверки.

Как выбрать правильное значение K?

  • Более низкое значение k более смещено и, следовательно, нежелательно.
  • Более высокое значение K менее смещено, но страдает от большой изменчивости.

Примечание. Меньшее значение «K» приводит нас к методу удержания, тогда как более высокое значение «K» приводит к методу LOOCV.

Преимущества

Это хороший способ обеспечить это, потому что он гарантирует, что каждое отдельное наблюдение из исходного набора данных имеет равные шансы появления в данных обучения и тестирования. Следовательно, это приводит к менее предвзятой модели по сравнению с другими методами. и мы также можем сказать, что это также уменьшает дисперсию, так как большинство данных используются при тестировании данных.

Недостатки

Алгоритм обучения должен быть перезапущен k раз с использованием этого метода. То есть требуется в k раз больше вычислений.

Код для K-кратного резюме

3. Стратифицированная K-кратная перекрестная проверка

  • Это похоже на K-кратное резюме. Это просто обновление K-кратности по отношению к классу зависимых переменных.
  • В K-кратном CV мы случайным образом перемешиваем данные, а затем делим их на K-кратные. Здесь есть вероятность, что мы можем получить несбалансированные классовые складки, что может привести к тому, что наше обучение будет необъективным.
  • Например, рассмотрим складку, в которой один класс имеет большую долю данных, чем другой (скажем, положительный класс имеет большую долю данных, чем отрицательный класс).
  • Чтобы решить эту проблему, мы используем стратифицированное K-кратное резюме.

"Стратификация – это процесс переупорядочения данных таким образом, чтобы каждая складка была хорошим представлением целого (всех классов)". т. е. каждая складка содержит примерно одинаковый процент образцов.

ПРИМЕЧАНИЕ. Это лучший подход, когда мы имеем дело как со смещением, так и с дисперсией.

Код для стратифицированного K-кратного резюме

4. Пропустить перекрестную проверку (LOOCV)

  • В этом исчерпывающем подходе мы будем рассматривать только одну точку данных из доступного набора данных в качестве тестовых данных, а остальные данные — в качестве обучающих данных для обучения модели. Этот процесс повторяется для каждой точки данных.
  • Другими словами, поскольку это исчерпывающий метод, мы обучаем модель на каждом возможном наборе точек данных.

Преимущества и недостатки

  • Мы используем все точки данных, поэтому систематическая ошибка будет низкой.
  • Мы повторяем процесс перекрестной проверки «n» раз (где «n» — количество точек данных), что приводит к увеличению времени выполнения.
  • Поскольку для тестирования используется только одна точка данных, этот подход приводит к более высокой вариации эффективности модели тестирования. т. е. если точка данных окажется выбросом, это может привести к более высокой вариации.

5. Не использовать перекрестную проверку P (LPOCV)

  • LOOCV пропускает одну точку данных. Точно так же мы опускаем обучающие примеры «P», чтобы иметь проверочный набор размера P для каждой итерации. Тогда это называется LPOCV.
  • Предположим, мы берем количество точек P из общего количества точек данных в наборе данных (скажем, «n»), и при обучении модели мы обучите ее на (n-p)точках данных и протестируйте модель, используя точки данных "P". Мы повторяем этот процесс для всех возможных комбинаций P в исходном наборе данных. Затем точность всех этих итераций усредняется, чтобы получить окончательную точность.

ПРИМЕЧАНИЕ. «LOOCV обычно предпочтительнее LPOCV, потому что он не требует интенсивных вычислений, а количество возможных комбинаций равно количеству точек данных в исходной выборке».

Я надеюсь, что эта статья будет полезна для тех, кого вы изучаете методы перекрестной проверки.

Спасибо за прочтение :)

Примечание. Эта статья предназначена только для образовательных целей и не предназначена для деловых целей.