вектор признаков: расчет весов для обучения по сравнению с тестовым набором

Я работаю с текстовой классификацией, используя машину опорных векторов, но в основном меня смущает вычисление вектора признаков для тестового набора.

Для вектора признаков обучения я взял вектор TF-IDF для каждого обучающего данных и построил матрицу признаков [документы x термины], используя значения TF-IDF.

Но как насчет вычисления вектора признаков тестового набора? Должен ли я просто использовать значения TF-IDF в тренировочном наборе для его вычисления?

например: в тренировочном наборе для определенного слова «яблоко» частота документа равна 5. Должен ли я использовать для тестового набора значение 5 для «яблока»? Или пересчитать TF-IDF на основе тестового набора?? Или, скорее, я ошибаюсь в вычислении вектора признаков??

Заранее спасибо!


person na9090    schedule 20.04.2013    source источник


Ответы (1)


Вы должны вычислить IDF (обратную частоту документа) для каждого термина, используя обучающий набор. Затем вы должны использовать один и тот же IDF для документов в своем тестовом наборе. С другой стороны, TF зависит от конкретного имеющегося документа, который вы пытаетесь классифицировать, поэтому он будет разным для разных документов в тестовом наборе и наборе поездов.

person Ando Saabas    schedule 21.04.2013
comment
привет. есть ли ссылка на эту методологию? желательно из статьи в литературе ти - person MonsterMMORPG; 29.04.2016