Можно ли удалить теги из предложений? Это можно сделать, просканировав файл, найдя теги и удалив их, но, поскольку тегов много (у некоторых моделей их 30+, у некоторых около 48-50, они в основном следуют penn treebank pos tags ), is есть ли быстрый и приятный способ удалить теги более эффективным способом? Я проверял API, но там не было такого метода удаления тегов.
Удалить теги POS-теггера
comment
Можете объяснить на примере, что вы хотите? Если вам просто не нужны POS-теги, вы не запускаете POS-теггер...
- person Christopher Manning   schedule 15.03.2012
comment
Предположим, я пометил файл с помощью тега, теперь я хочу применить к файлу определенные условия на основе тегов, которые появляются рядом с каждым словом. И после этого в измененном файле я бы явно не хотел, чтобы теги появлялись, они будут вообще бесполезны и не нравятся пользователю. Итак, я хотел бы удалить теги. Я нашел обходной путь для этого, это не такой простой метод, как я только что объяснил выше, мне придется сканировать каждую строку из исходного документа и из документа с тегами одновременно, чтобы достичь этого. Но я был просто любопытно, есть ли более простой способ удаления тегов. :-)
- person Kazekage Gaara   schedule 15.03.2012
Ответы (1)
Для этого нет ничего особенного, но, поскольку вывод включает в себя и слово, и его тег, я не уверен, зачем вам нужно снова сканировать исходный документ. Разве вы не можете просто удалить теги, удалив их с последнего символа tagSeparator («/» или что-то еще) до пробела? Или, может быть, проще использовать
-outputFormat tsv
Затем вы получите вывод в два столбца со словами в первом столбце и тегом во втором столбце, и вы можете просто сохранить первый столбец, когда закончите.
person
Christopher Manning
schedule
17.03.2012