Я новичок в использовании Маллета. Я обычно использую WEKA для классификации, а теперь пытаюсь использовать Mallet для классификации текста. В Weka есть атрибуты (такие как длина слова или появление первого слова), которые мы выбираем сами и создаем файл .arff.
Я прочитал о формате ввода для Mallet в http://mallet.cs.umass.edu/import.php, но я все еще в замешательстве. Как мы назначаем атрибут в формате ввода? Как мы можем сказать, что этот документ принадлежит к определенному классу? Например, документ относится к классу «спорт»?
Любой пример файла входного формата будет очень признателен.
Спасибо!