Недавно я написал статью в Text Analytics, в которой рассказал, как мы можем токенизировать предложения без использования каких-либо библиотек Python. Я получил хороший ответ на этот учебник.

В этом уроке мы облегчим нашу работу в области НЛП, используя библиотеку Python под названием NLTK.

Что такое НЛТК?

представляет собой набор библиотек и программ для символической и статистической обработки естественного языка (NLP) для английского языка, написанных на языке программирования Python. NLTK включает графические демонстрации и образцы данных. Он сопровождается книгой, в которой объясняются основные понятия, лежащие в основе задач обработки языка, поддерживаемых набором инструментов.

На непрофессиональном языке: чтобы легко обрабатывать текстовые данные, которые мы импортируем в среду Python, мы можем использовать библиотеку NLTK, которая выполняет многие задачи, такие как токенизация, всего за 2–3 строки кода.

Итак, без лишних слов давайте погрузимся в часть кодирования! ^_^

Токенизация предложений в слова с использованием NLTK

Давайте начнем с открытия вашей любимой IDE для Python. В идеале я использую блокноты Python (ipynb) для всего своего программирования, связанного с Python. Я нахожу простой и быстрой проверку работы моего кода.

Итак, сначала мы импортируем библиотеку NLTK в наш файл.

Примечание. Прежде чем импортировать библиотеку NLTK, установите NTLK в своей системе.

Если вы используете Anaconda IDE, скопируйте и вставьте приведенную ниже команду, чтобы установить библиотеку NLTK.

установка конда -c анаконда нлтк

Для Mac/Юникс

  1. Установите NLTK: запустите pip install --user -U nltk
  2. Установите Numpy (необязательно): запустите pip install --user -U numpy
  3. Тестовая установка: запустите python, затем введите import nltk

Теперь давайте вернемся к нашей задаче токенизации предложений.

Сначала мы импортируем библиотеку NLTK.

import nltk

Теперь давайте сохраним большой кусок слов в переменной

text_sample ="This thing seemed to overpower and astonish the little dark-brown dog, and wounded him to the heart. He sank down in despair at the child's feet. When the blow was repeated, together with an admonition in childish sentences, he turned over upon his back, and held his paws in a peculiar manner. At the same time with his ears and his eyes he offered a small prayer to the child."

Теперь мы будем использовать sent_tokenize для токенизации данного образца текста в предложения:

sentence = nltk.sent_tokenize(text_sample)

Теперь мы будем токенизировать слова:

words = nltk.word_tokenize(text_sample)

Мы токенизировали наши образцы текстовых данных. Теперь, чтобы вывести токенизированную форму:

[w for w in words if w.isalpha()]

Приведенный выше запрос гарантирует, что вы получите все токены, которые не являются специальными символами.

Заключительные слова

Надеюсь, вам понравился мой этот урок. Дайте мне знать в комментариях, как вам нравится токенизировать предложения/слова. Подписывайтесь на меня, чтобы получать больше руководств и трюков по науке о данных!