Точность тегов TextBlob и NLTK POS

Пока у меня есть этот код ниже

from textblob import TextBlob
class BrinBot:

    def __init__(self, message): #Accepts the message from the user as the argument
        parse(message)

class parse:
    def __init__(self, message):
        self.message = message
        blob = TextBlob(self.message)
        print(blob.tags)

BrinBot("Handsome Bob's dog is a beautiful Chihuahua")

Это результат:

[('Handsome', 'NNP'), ('Bob', 'NNP'), ("'s", 'POS'), ('dog', 'NN'), ('is', 'VBZ'), ('a', 'DT'), ('beautiful', 'JJ'), ('Chihuahua', 'NNP')]

Мой вопрос заключается в том, что, по-видимому, TextBlob считает, что «Красивый» - это имя собственное в единственном числе, что неверно, поскольку «Красивый» должен быть прилагательным. Есть ли способ исправить это, я пробовал это и на NLTK, но получил те же результаты.


person Brian Zheng    schedule 24.03.2019    source источник


Ответы (1)


Это происходит из-за того, что использование слова «Красавчик» с заглавной буквы приводит к тому, что оно рассматривается как часть имени Боба. Это не обязательно неправильный анализ, но если вы хотите принудительно применить анализ прилагательных, вы можете удалить заглавные буквы слова «красивый», как в тексте 2 и тексте 4 ниже.

text = "Handsome Bob's dog is a beautiful chihuahua"

BrinBot(text)
[('Handsome', 'NNP'), ('Bob', 'NNP'), ("'s", 'POS'), ('dog', 'NN'), ('is', 'VBZ'), ('a', 'DT'), ('beautiful', 'JJ'), ('Chihuahua', 'NNP')]

text2 = "handsome bob's dog is a beautiful chihuahua"

BrinBot(text2)
[('handsome', 'JJ'), ('bob', 'NN'), ("'s", 'POS'), ('dog', 'NN'), ('is', 'VBZ'), ('a', 'DT'), ('beautiful', 'JJ'), ('chihuahua', 'NN')]

text3 = "That beautiful chihuahua is handsome Bob's dog"

BrinBot(text3)
[('That', 'DT'), ('beautiful', 'JJ'), ('chihuahua', 'NN'), ('is', 'VBZ'), ('handsome', 'JJ'), ('Bob', 'NNP'), ("'s", 'POS'), ('dog', 'NN')]

text4 = "That beautiful chihuahua is Handsome Bob's dog"

BrinBot(text4)
[('That', 'DT'), ('beautiful', 'JJ'), ('chihuahua', 'NN'), ('is', 'VBZ'), ('Handsome', 'NNP'), ('Bob', 'NNP'), ("'s", 'POS'), ('dog', 'NN')]
person scratchpad    schedule 25.03.2019