Дорогой читатель,
Ссылка: https://medium.com/@wakeupcoders/part-2-tokenization-nlp-480c67015700
— — — — — — — — — — — — — — — — — — — — — — — — — — — — — -
Текст — это очень важные данные. Однажды мы попытаемся преобразовать эти данные в информационную модель. Наша первая задача для НЛП — это токенизация. Давайте поймем, как с этим бороться :D.
Что такое токенизация (NLP)?
Токенизация — это процесс токенизации или разделения строки, текста на список токенов. Токен можно рассматривать как часть, например, слово — это токен в предложении, а предложение — это токен в абзаце.
Как видно из приведенного выше примера, строка теперь токенизирована. Теперь вопрос в том, почему мы делаем токенизацию.
Почему токенизация (NLP)?
Теперь, когда мы знаем, что процесс разделения предложения или слова известен как токенизация. Мы делаем токенизацию, потому что, если у нас будут разные слова и предложения, мы сможем добраться до каждого слова и предложения и получить представление о каждом слове или предложении. Вот почему токенизация очень важна для нас.
Как реализовать токенизацию?
Пожалуйста, просмотрите приведенный выше блокнот для различных типов токенизации.
Время практики :)
Теперь, я надеюсь, вы поняли из приведенного выше объяснения, что знаете о токенизации. Пожалуйста, используйте это практическое задание, чтобы лучше понять токенизацию.
Не стесняйтесь использовать наш репозиторий github, связанный с этой серией НЛП: https://github.com/wakeupcoders/Natural-Language-Processing-
Быстрые ссылки
Ссылка : Часть -1 : Введение в НЛП
Надеюсь, вам понравился этот блог. Присоединяйтесь к нам в Instagram, Twitter, Linkedin. Этот блог создан в сотрудничестве с Sambhav Jain. Спасибо, что прочитали.