как работает перекрестная проверка для этих двух деревьев?

У меня есть 1 дерево (ID3 или J48) в weka. в нем всего 25 тренировочных наборов. и он учится со 100% точностью. Я думаю, что это слишком много для точности тренировочного набора. как я могу понять, есть ли у него проблема с переоснащением или нет? (Я хочу использовать свой тестовый набор из этих 25 данных поезда, потому что у меня нет теста), и я знаю, что перекрестная проверка хороша для прекращения переобучения, но я хочу доказать это перед использованием перекрестной проверки. на самом деле я обрезал это дерево и сравнил точность перекрестной проверки между обрезанными и необрезанными деревьями. но я не могу объяснить и понять, как должна меняться точность между переобученным деревом и обрезанным деревом? (В этом случае я знаю, что у моего дерева есть проблема с переоснащением, но как я могу сделать вывод?) А как насчет другого способа? Вы можете предложить мне? Обратите внимание, что тестовые данные недоступны.


person patric    schedule 20.10.2015    source источник


Ответы (1)


Вот что я бы сделал:

  1. Возьмите 25 точек данных и используйте 10-кратную перекрестную проверку. Запишите точность (при условии, что ваши классы сбалансированы/почти сбалансированы)
  2. Возьмите точность обучения и сравните эти два значения точности. Если они значительно отличаются (скажем, 100% точность обучения против 85% точности теста), то для меня это сигнал о переобучении. С этого момента я бы попытался увеличить точки данных и построить кривые обучения по мере их увеличения.

ПРИМЕЧАНИЕ. Если у вас нет тестовых данных, единственным выбором будет CV, а результаты, полученные с помощью CV, следует рассматривать как результаты тестов.

person Rushdi Shams    schedule 23.10.2015
comment
вы правы .. но когда я обрезал дерево и использовал 10-кратную перекрестную проверку, точность была такой же, как у необрезанного дерева? например 80% и 80%. так это было немного странно ! почему это? - person patric; 24.10.2015