Как пометить текстовые файлы с помощью hunpos в nltk?

Может ли кто-нибудь помочь мне с синтаксисом для hunpos, помечающего корпус в nltk?

Что мне импортировать для модуля hunpos.HunPosTagger ?

Как пометить корпус HunPosTag? См. код ниже.

import nltk 
from nltk.corpus import PlaintextCorpusReader  
from nltk.corpus.util import LazyCorpusLoader  

corpus_root = './'  
reader = PlaintextCorpusReader (corpus_root, '.*')  

ntuen = LazyCorpusLoader ('ntumultien', PlaintextCorpusReader, reader)  
ntuen.fileids()  
isinstance (ntuen, PlaintextCorpusReader)  


# So how do I hunpos tag `ntuen`? I can't get the following code to work.
# please help me to correct my python syntax errors, I'm new to python 
# but i really need this to work. sorry
##from nltk.tag import hunpos.HunPosTagger
ht = HunPosTagger('english.model')
for sentence in ntu.sent() ##looping through the no. of sentence
     ht.tag(ntusent()[i])

alvas 23.02.2011 источник

Ответы (1)

arrow_upward
5
arrow_downward

import nltk 
from nltk.tag.hunpos import HunposTagger
from nltk.tokenize import word_tokenize

corpus = "so how do i hunpos tag my ntuen ? i can't get the following code to work."
#please help me to correct my python syntax errors, i'm new to python 
#but i really need this to work. sorry
##from nltk.tag import hunpos.HunPosTagger
ht = HunposTagger('en_wsj.model')
print ht.tag(word_tokenize(corpus))

Я чувствую, что проблема в том, что вы не токенизируете слова, но есть и другие причины, по которым код может не работать (это HunposTagger, а не HunPosTagger). Я сделал этот упрощенный пример из вашего вопроса. Если у вас есть еще вопросы, оставьте комментарий.

Я получил все отсюда: http://code.google.com/p/hunpos/

hunpos.py питона

[('так', 'RB'), ('как', 'WRB'), ('делать', 'VBP'), ('i', 'FW'), ('hunpos', 'NN') , ('tag', 'NN'), ('my', 'PRP$'), ('ntuen', 'NN'), ('?', '.'), ('i', 'FW' ), ('ca', 'MD'), (n't, 'RB'), ('get', 'VB'), ('the', 'DT'), ('следующий', 'JJ' ), ('код', 'NN'), ('к', 'К'), ('работа', 'ВБ'), ('.', '.')]

Joe 23.02.2011

comment

мне удалось закодировать его в nltk. я должен разделить каждое предложение на новую строку. Спасибо. затем запустите эту команду ht.tag(file.readline().split()) - alvas; 24.02.2011

Как пометить текстовые файлы с помощью hunpos в nltk?

Ответы (1)

Вопросы по теме