Дорогой читатель,

Мы перешли на новую учетную запись блога. Пожалуйста, нажмите здесь, чтобы прочитать ту же статью в другой учетной записи с более качественным содержанием и опытом.

Ссылка: https://medium.com/@wakeupcoders/part-2-tokenization-nlp-480c67015700

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — -

Текст — это очень важные данные. Однажды мы попытаемся преобразовать эти данные в информационную модель. Наша первая задача для НЛП — это токенизация. Давайте поймем, как с этим бороться :D.

Что такое токенизация (NLP)?

Токенизация — это процесс токенизации или разделения строки, текста на список токенов. Токен можно рассматривать как часть, например, слово — это токен в предложении, а предложение — это токен в абзаце.

Как видно из приведенного выше примера, строка теперь токенизирована. Теперь вопрос в том, почему мы делаем токенизацию.

Почему токенизация (NLP)?

Теперь, когда мы знаем, что процесс разделения предложения или слова известен как токенизация. Мы делаем токенизацию, потому что, если у нас будут разные слова и предложения, мы сможем добраться до каждого слова и предложения и получить представление о каждом слове или предложении. Вот почему токенизация очень важна для нас.

Как реализовать токенизацию?

Пожалуйста, просмотрите приведенный выше блокнот для различных типов токенизации.

Время практики :)

Теперь, я надеюсь, вы поняли из приведенного выше объяснения, что знаете о токенизации. Пожалуйста, используйте это практическое задание, чтобы лучше понять токенизацию.

https://github.com/wakeupcoders/Natural-Language-Processing-/tree/master/Tokenization/Practice%20Assignment%20of%20Tokenization

Не стесняйтесь использовать наш репозиторий github, связанный с этой серией НЛП: https://github.com/wakeupcoders/Natural-Language-Processing-

Быстрые ссылки

Ссылка : Часть -1 : Введение в НЛП

Надеюсь, вам понравился этот блог. Присоединяйтесь к нам в Instagram, Twitter, Linkedin. Этот блог создан в сотрудничестве с Sambhav Jain. Спасибо, что прочитали.