Я пытаюсь сделать тег pos для каждого слова в каждой строке (каждая строка содержит несколько предложений).
У меня есть этот код:
import nltk import pos_tag
import nltk.tokenize import word_tokenize
f = open('C:\Users\test_data.txt')
data = f.readlines()
#Parse the text file for NER with POS Tagging
for line in data:
tokens = nltk.word_tokenize(line)
tagged = nltk.pos_tag(tokens)
entities = nltk.chunk.ne_chunk(tagged)
print entities
f.close()
Но код дает тег для каждой строки, и вывод выглядит так:
[('Квартира совершенно новая и безупречная в своей чистоте.', 'NNP'), ('"Потрясающее маленькое место в горах.', 'NNP'), ('Очень удобное место рядом с остановкой Фатима Луас . Я люблю это место. \nДжозе и Вадим очень приветливы и очень хорошо ко мне относились. \nНадеюсь, остановимся здесь снова.', 'NNP'), ('Очень услужливый и общительный хозяин. Отличное расположение, хорошее транспортное сообщение. Номер был слишком мал для пары, и нехватка шкафов очень ощущалась.\n\nВ остальном довольно чистый и ухоженный.', 'NNP'), ("Все было точно так, как описано. Это красиво.', 'NNP ')]
В моем коде есть «токенизатор», и я не знаю, что не так с моим кодом. Мне нужен тег pos для каждого слова, а не для каждой строки. Но все же каждая строка должна быть разделена (или выделена) скобками или чем-то в этом роде.
(
) - person mquantin   schedule 05.09.2017