Применение Маллета в классификации документов в качестве бинарного классификатора

Я реализовал инструмент классификации документов с помощью Mallet, который классифицирует каждую страницу документа по определенным категориям. Я тоже пробовал Weka, но Маллет умнее Weka в этом аспекте. Мой подход следующий:

  1. Обучить страницы документа известной категории
  2. Протестируйте несколько образцов документов, идентифицирует ли Маллет страницы определенной категории или нет. Здесь Mallet соответствует набору тестов с известными категориями.
  3. если тест прошел успешно и удовлетворительно, запустите его в огромном репозитории документов, используя классификатор и файл молотка.

Эта часть уже реализована с хорошим уровнем успеха.

Для текстовых документов, которые я не обучал и которые отличаются от известных категорий, должно быть возвращено НЕТ совпадения, Маллет пытается найти совпадение из обучающего набора для документов, которые не известны Маллету.

Например, у меня есть 4 страницы в документе. Страница 1 принадлежит классу A, страница 3 принадлежит классу B. Страницы 2 и 4 не принадлежат ни к одному из классов. Как пометить страницы 2 и 4 как «НЕ СОВПАДЕНИЕ» через Mallet?

Пожалуйста, помогите мне достичь этого. Дайте мне знать, если я делаю что-то не так, или любой другой инструмент, который может дать мне желаемый результат.


person InfoUser    schedule 06.02.2015    source источник


Ответы (1)


Две быстрые мысли:

  1. Вы можете задать некоторый порог для желаемого значения достоверности. Например, маллет говорит, что страница 1 относится к классу А с вероятностью 90%, примите это. Если говорится, что страница 2 принадлежит к классу C с вероятностью 60%, и это, возможно, лучшее значение, отклоните это предложение. Вы можете получить баллы классификации с помощью функции-getClassificationScores (документация:http://mallet.cs.umass.edu/api/cc/mallet/classify/MaxEnt.html#getClassificationScores(cc.mallet.types.Instance, двойной[])

  2. Вы можете научиться scikit-learn в python. Я слышал, что если он не знает, к какому классу принадлежит ваша страница, он сообщит об этом NA.

person pnv    schedule 06.02.2015
comment
Благодарим за ваше предложение. Я уже использую первый пункт, который вы упомянули. Я сохранил порог, т.е. 60%, ниже 60% уверенности я отбрасываю. Необходимо изучить инструменты и алгоритмы scikit-learn. - person InfoUser; 06.02.2015