NLTK - очень богатая библиотека, используемая для различных операций по обработке естественного языка (NLP). Среди них токенизация и POS-теги. Здесь я собираюсь объяснить, что это такое и как мы можем применить токенизацию и теги POS для данного текстового файла.
T - это отдельные слова, а токенизация - это взятие слова или группы слов и разбиение их на отдельные слова. Например, если данное предложение звучит как «НЛП легко понять», то НЛП, легко понять, являются здесь токенами, а разбиение данного предложения на токены является токенизацией.
Чтобы прояснить концепцию, я взял пример с использованием Python. Берется текстовый файл с именем «what_is_nlp.txt», который выглядит так:
Следующий код читает текстовый файл -
Части речевых тегов или тегов POS, также называемые POST, устранение неоднозначности категории слов - это процесс разметки слова в тексте (корпусе) как соответствующего части речи, к которой принадлежит это слово.
Ниже приведен список различных POS-терминалов и их описание (для каких частей речи оно используется).
Код python можно увидеть здесь https://github.com/abhishekanand25/abhishekanand25.github.io