Руководство для начинающих по обработке текста с помощью NLTK

Введение:

В эпоху обилия текстовых данных способность обрабатывать и анализировать текст стала важнейшим навыком для различных приложений, от анализа настроений до чат-ботов. Natural Language Toolkit (NLTK) — это мощная библиотека Python, предлагающая широкий спектр инструментов для задач обработки естественного языка (NLP). В этом руководстве мы познакомим вас с процессом загрузки ресурсов NLTK и рассмотрим основные методы обработки текста с использованием NLTK. Давайте погрузимся!

Установка и импорт NLTK:

!pip install nltk
import nltk

Загрузка ресурсов NLTK:

Прежде чем приступить к изучению возможностей NLTK, вам необходимо загрузить необходимые ресурсы. Используйте следующие команды для доступа к графическому интерфейсу NLTK для загрузки:

nltk.download()

Токенизация:

Токенизация — это процесс разбиения текста на более мелкие единицы, такие как предложения или слова. NLTK предоставляет функции для токенизации как предложений, так и слов.

Токенизация предложений:

from nltk.tokenize import sent_tokenize
text = "Today is a great day. It is even better than yesterday."
sentences = sent_tokenize(text)
print(sentences)

Токенизация слов:

from nltk.tokenize import word_tokenize
text = "Today is a great day."
words = word_tokenize(text)
print(words)

Синсеты WordNet:

WordNet — это лексическая база данных, которая предоставляет синонимы, определения и многое другое для английских слов. Модуль WordNet NLTK позволяет вам получить доступ к этим функциям.

Синонимы и определения:

from nltk.corpus import wordnet
synonyms = wordnet.synsets('love')[0].lemmas()[0].name()
definition = wordnet.synsets('love')[0].definition()
print("Synonym:", synonyms)
print("Definition:", definition)

Синонимы и антонимы:

WordNet NLTK также предлагает доступ к синонимам и антонимам слов.

Синонимы:

synonyms = []
for syn in wordnet.synsets('AI'):
    for lemma in syn.lemmas():
        synonyms.append(lemma.name())
print(synonyms)

Антонимы:

antonyms = []
for syn in wordnet.synsets('happy'):
    for l in syn.lemmas():
        if l.antonyms():
            antonyms.append(l.antonyms()[0].name())
print(antonyms)

Стемминг и лемматизация:

Стемминг и лемматизация — это методы приведения слов к их основным формам.

Стемминг:

from nltk.stem import PorterStemmer, SnowballStemmer
stemmer = PorterStemmer()
stemmed_word = stemmer.stem('loving')
print("Stemmed:", stemmed_word)

Лемматизация:

from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemma = lemmatizer.lemmatize('believes')
print("Lemma:", lemma)

Удаление стоп-слов:

Стоп-слова — это распространенные слова, которые часто удаляются из текста.

from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
text = "Today is a great day."
words = word_tokenize(text)
filtered_words = [w for w in words if not w in stop_words]
print(filtered_words)

Маркировка частей речи:

Маркировка частей речи присваивает словам грамматические метки.

pos_tagged = nltk.pos_tag(word_tokenize("NLTK is amazing!"))
print(pos_tagged)

Заключение:

В этом руководстве мы рассмотрели основы NLTK и изучили основные методы обработки текста. От токенизации до стемминга и лемматизации — NLTK предоставляет вам инструменты для манипулирования и анализа текстовых данных. Используя возможности NLTK, вы можете глубже погрузиться в более сложные задачи НЛП. Начните экспериментировать и с уверенностью создавать свои собственные текстовые приложения!

Цитаты:

Бёрд, Стивен, Эдвард Лопер и Юэн Кляйн. «Обработка естественного языка с помощью Python». О'Рейли Медиа, 2009.
Проект НЛТК. Набор инструментов естественного языка (NLTK). https://www.nltk.org/

Удачного кодирования и анализа текста!

На простом английском языке

Спасибо, что вы являетесь частью нашего сообщества! Прежде чем уйти:

Обязательно аплодируйте и следуйте за автором! 👏
Еще больше контента вы можете найти на PlainEnglish.io 🚀
Подпишитесь на нашу бесплатную еженедельную рассылку. 🗞️
Следуйте за нами в Twitter, LinkedIn, YouTube > и Discord.