Как импортировать данные с помощью Mallet Java API

Я новичок в Mallet и пытаюсь использовать его функции CRF для распознавания именованных объектов. Я знаю, что на их веб-сайте есть пример, показывающий, как импортировать данные с помощью Java, но он имеет дело с простыми текстами (не в формате обучающего набора). Теперь у меня есть тренировочные данные в следующем формате (точный формат, как показано на веб-сайте). Первый столбец — это слово, а второй столбец — это метка.

a   O
50  AGE
year    AGE
old O
man GENDER
with    O
a   O
history O
of  O
suicide O
attempt O
experienced O
an  O
epileptic   O
seizure O
on  O
22-dec-01   DATE
.   O 
----

Примечание: это не видно в отрендеренном выводе, но кажется, что оно разделено табуляцией

Так что теперь я застрял. Как мне импортировать приведенные выше данные в качестве тренировочного набора с помощью API Mallet?

Я знаю, как это сделать в командной строке, но я хотел бы закодировать JAVA, чтобы в будущем я мог добавить еще несколько функций, используя их API.


person Haodong Yang    schedule 15.09.2016    source источник
comment
отпишись что пробовал   -  person GANI    schedule 15.09.2016
comment
Я просто использовал командную строку, которая есть на их сайте. Теперь я хочу использовать java-код, но я не совсем уверен, какие классы и методы использовать для загрузки набора данных (отформатированного, как указано выше) в экземпляры.   -  person Haodong Yang    schedule 16.09.2016


Ответы (1)


Вы можете читать обучающие экземпляры, используя FileIterator, CSVIterator или ArrayIterator в маллете. Вы можете найти использование CSVIteartor по адресу http://mallet.cs.umass.edu/classifier-devel.php. Использование FileIterator и ArrayIterator доступно по адресу http://www.programcreek.com/java-api-examples/index.php?api=cc.mallet.pipe.iterator.FileIterator и http://www.programcreek.com/java-api-examples/index.php?api=cc.mallet.pipe.iterator.Arrayiterator соответственно.

Информацию о том, как использовать CRF через код Java в mallet, можно найти по адресу http://www.programcreek.com/java-api-examples/index.php?api=cc.mallet.fst.CRF

person drp    schedule 18.09.2016
comment
Большое спасибо. Это помогает! - person Haodong Yang; 19.09.2016