Я новичок в opennlp, нужна помощь в настройке парсера
Я использовал синтаксический анализатор opennlp с предварительно обученной моделью en-pos-maxtent.bin для пометки новых необработанных английских предложений соответствующими частями речи, теперь я хотел бы настроить теги.
Пример предложения: Собака перепрыгнула через стену.
после пометки POS с помощью en-pos-maxtent.bin результатом будет
Собака - ННП
прыгнул - ВБД
над - В
- ДТ
стена - НН
но я хочу обучить свою собственную модель и пометить слова своими пользовательскими тегами, например
СОБАКА - ПЕРП
прыгнул - ДЕЙСТВУЙ
больше - ДРУГОЕ
- ДРУГОЕ
стена - ОБЖ
где PERP, ACT, OTH, OBJ — теги, которые соответствуют моим потребностям. Это возможно ?
Я проверил раздел их документации, они дали код для обучения модели и использования ее позже, код выглядит так:
try {
dataIn = new FileInputStream("en-pos.train");
ObjectStream<String> lineStream = new PlainTextByLineStream(dataIn, "UTF-8");
ObjectStream<POSSample> sampleStream = new WordTagSampleStream(lineStream);
model = POSTaggerME.train("en", sampleStream, TrainingParameters.defaultParams(), null, null);
}
catch (IOException e) {
// Failed to read or parse training data, training failed
e.printStackTrace();
}
Я не могу понять, что это за "en-pos.train"?
какой формат у этого файла? мы можем указать здесь пользовательские теги или что это за файл?
любая помощь будет оценена
Спасибо