Удалить теги POS-теггера

Можно ли удалить теги из предложений? Это можно сделать, просканировав файл, найдя теги и удалив их, но, поскольку тегов много (у некоторых моделей их 30+, у некоторых около 48-50, они в основном следуют penn treebank pos tags ), is есть ли быстрый и приятный способ удалить теги более эффективным способом? Я проверял API, но там не было такого метода удаления тегов.


person Kazekage Gaara    schedule 14.03.2012    source источник
comment
Можете объяснить на примере, что вы хотите? Если вам просто не нужны POS-теги, вы не запускаете POS-теггер...   -  person Christopher Manning    schedule 15.03.2012
comment
Предположим, я пометил файл с помощью тега, теперь я хочу применить к файлу определенные условия на основе тегов, которые появляются рядом с каждым словом. И после этого в измененном файле я бы явно не хотел, чтобы теги появлялись, они будут вообще бесполезны и не нравятся пользователю. Итак, я хотел бы удалить теги. Я нашел обходной путь для этого, это не такой простой метод, как я только что объяснил выше, мне придется сканировать каждую строку из исходного документа и из документа с тегами одновременно, чтобы достичь этого. Но я был просто любопытно, есть ли более простой способ удаления тегов. :-)   -  person Kazekage Gaara    schedule 15.03.2012


Ответы (1)


Для этого нет ничего особенного, но, поскольку вывод включает в себя и слово, и его тег, я не уверен, зачем вам нужно снова сканировать исходный документ. Разве вы не можете просто удалить теги, удалив их с последнего символа tagSeparator («/» или что-то еще) до пробела? Или, может быть, проще использовать

-outputFormat tsv

Затем вы получите вывод в два столбца со словами в первом столбце и тегом во втором столбце, и вы можете просто сохранить первый столбец, когда закончите.

person Christopher Manning    schedule 17.03.2012