Я пытался лемматизировать слова из Священной Книги Корана, но некоторые слова не могут быть лемматизированы.
вот моя фраза:
sentence = "Then bring ten surahs like it that have been invented and call upon for assistance whomever you can besides Allah if you should be truthful"
это предложение является частью моего набора данных txt. как видите, есть «суры», которые являются формой множественного числа от «суры». Я пробовал свои коды:
def lemmatize(self, ayat):
wordnet_lemmatizer = WordNetLemmatizer()
result = []
for i in xrange (len(ayat)):
result.append(wordnet_lemmatizer.lemmatize(sentence[i],'v'))
return result
который, когда я запускаю и печатаю, результат такой:
['bring', 'ten', 'surahs', 'like', u'invent', 'call', 'upon', 'assistance', 'whomever', 'besides', 'Allah', 'truthful']
«суры» не превращаются в «суры».
кто-нибудь может сказать, почему? Благодарю.