Предположим, студент во время экзамена, его учитель сказал, что выучите 5 главу из учебника по математике. Он выучил и пошел в школу, Когда начался экзамен, он увидел, что вопросов было из целой книги. Таким образом, он забил меньше.

Опять же, думаю другая ситуация, он прочитал всю книгу и вопросы были только из 5 главы. Он забил хорошо.

В этих двух ситуациях мы не можем сказать, что он плохой ученик, а также он хороший ученик, проанализируйте его результат.

Если вопрос был из полной книги и он хорошо справился, то мы можем сказать ему, что он хороший ученик.

Мы знаем, что из набора данных мы разделяем данные для обучения и тестирования.

Пусть наш набор данных содержит 100 данных. Мы делим его на 5 категорий.

D1= 20, D2= 20, D3= 20, D4= 20, D5 = 20

Итак, теперь D1,D2,D3,D4 — обучающий набор, а D5 — тестовый. Если D5 показывает хорошие результаты в оценке. Это действительно хорошо? Ответ: нет. Похоже на мой первый пример. Потому что мы можем получить неизвестные данные из обучающего набора, которого нет в тестовом наборе.

Вот откуда взялась перекрестная проверка. Нам нужно разделить данные поровну (K-множество). Это деление будет случайным. Это называется K-кратной перекрестной проверкой. Нам нужно обучить набор (K-1) и протестировать остальные. Используя цикл, нам нужно перетасовать K-time и завершить процесс.

Наконец, возьмите среднее значение производительности. Это результат того, насколько хороша или плоха ваша модель.

Итак, из нашего набора данных это будет,

Сумма=производительность1+производительность2+производительность3+производительность4+производительность5

Оценочный балл = сумма / 5