Мой файл input.txt содержит следующий образец текста:
вы должны давайте
приезжать ко мне.
Теперь, если я вызову теггер Stanford POS с помощью команды по умолчанию:
java -classpath stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/wsj-0-18-bidirectional-distsim.tagger -textFile input.txt > output.txt
Я получаю следующее в моем файле output.txt:
you_PRP have_VBP to_TO let_VB 's_POS come_VB and_CC see_VB me_PRP ._.
Проблема с приведенным выше выводом заключается в том, что я потерял исходный разделитель новой строки, используемый во входном файле.
Теперь, если я использую следующую команду, чтобы сохранить разделитель предложений новой строки в выходном файле, я должен установить для параметра -tokenize значение false:
java -classpath stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/wsj-0-18-bidirectional-distsim.tagger -sentenceDelimiter newline -tokenize false -textFile input.txt > output.txt
Проблема с этим кодом в том, что он полностью испортил вывод:
you_PRP have_VBP to_TO let's_NNS
come_VB and_CC see_VB me._NN
Вот давайте и я. помечены неправильно.
Мой вопрос: как я могу сохранить разделители новой строки в выходном файле, не испортив токенизацию?