Текстовая классификация с использованием MALLET

Я новичок в использовании Маллета. Я обычно использую WEKA для классификации, а теперь пытаюсь использовать Mallet для классификации текста. В Weka есть атрибуты (такие как длина слова или появление первого слова), которые мы выбираем сами и создаем файл .arff.

Я прочитал о формате ввода для Mallet в http://mallet.cs.umass.edu/import.php, но я все еще в замешательстве. Как мы назначаем атрибут в формате ввода? Как мы можем сказать, что этот документ принадлежит к определенному классу? Например, документ относится к классу «спорт»?

Любой пример файла входного формата будет очень признателен.

Спасибо!


person kaylak    schedule 12.07.2015    source источник


Ответы (1)


-Как мы можем сказать, что этот документ принадлежит к определенному классу?:

У вас может быть одна папка для каждого класса, например: C:/Corpus/Class1 C:/Corpus/Class2 C:/Corpus/Classn, и каждая папка содержит документы, принадлежащие этому классу.

Как мы назначаем атрибут в формате ввода?

Если вы хотите узнать параметры импорта файлов, перейдите по адресу: C:/mallet/bin и когда вы там: mallet import-dir --help и будут отображаться параметры импорта файлов, например --remove-stopwords , --грамм размеры.

Пример кода для импорта файлов:

bin/mallet import-dir --input C:/Corpus/* --output corpus.mallet --gram размеры 1,2 --preserve-case

person AnaB    schedule 14.07.2015
comment
Спасибо за Ваш ответ. Итак, я полагаю, что тип атрибута Маллета по умолчанию — это униграмма, в которой все слова являются атрибутами? - person kaylak; 15.07.2015
comment
В яблочко. Вы можете выбрать биграммы, например, с параметрами --gram 1,2. - person AnaB; 16.07.2015
comment
Большой! Ваш ответ действительно помог мне понять Маллета для классификации :) Теперь я использовал Маллет для своих исследований. - person kaylak; 18.07.2015