Я новичок в Mallet и пытаюсь использовать его функции CRF для распознавания именованных объектов. Я знаю, что на их веб-сайте есть пример, показывающий, как импортировать данные с помощью Java, но он имеет дело с простыми текстами (не в формате обучающего набора). Теперь у меня есть тренировочные данные в следующем формате (точный формат, как показано на веб-сайте). Первый столбец — это слово, а второй столбец — это метка.
a O
50 AGE
year AGE
old O
man GENDER
with O
a O
history O
of O
suicide O
attempt O
experienced O
an O
epileptic O
seizure O
on O
22-dec-01 DATE
. O
----
Примечание: это не видно в отрендеренном выводе, но кажется, что оно разделено табуляцией
Так что теперь я застрял. Как мне импортировать приведенные выше данные в качестве тренировочного набора с помощью API Mallet?
Я знаю, как это сделать в командной строке, но я хотел бы закодировать JAVA, чтобы в будущем я мог добавить еще несколько функций, используя их API.