Токенизация и теги POS с использованием библиотеки NLTK

NLTK - очень богатая библиотека, используемая для различных операций по обработке естественного языка (NLP). Среди них токенизация и POS-теги. Здесь я собираюсь объяснить, что это такое и как мы можем применить токенизацию и теги POS для данного текстового файла.

T - это отдельные слова, а токенизация - это взятие слова или группы слов и разбиение их на отдельные слова. Например, если данное предложение звучит как «НЛП легко понять», то НЛП, легко понять, являются здесь токенами, а разбиение данного предложения на токены является токенизацией.

Чтобы прояснить концепцию, я взял пример с использованием Python. Берется текстовый файл с именем «what_is_nlp.txt», который выглядит так:

Следующий код читает текстовый файл -

Части речевых тегов или тегов POS, также называемые POST, устранение неоднозначности категории слов - это процесс разметки слова в тексте (корпусе) как соответствующего части речи, к которой принадлежит это слово.

Ниже приведен список различных POS-терминалов и их описание (для каких частей речи оно используется).

Код python можно увидеть здесь https://github.com/abhishekanand25/abhishekanand25.github.io

Токенизация и теги POS с использованием библиотеки NLTK

Вопросы по теме