Руководство для начинающих по обработке естественного языка в машинном обучении

Здравствуйте, читатели, в сегодняшней статье мы обсуждаем процесс машинного обучения, который конкретно касается текста, который вы читаете, пишете и твитите и так далее…

что такое обработка естественного языка (NLP), это процесс, который выполняется с необработанным текстом для преобразования текста в числа, чтобы компьютер мог понимать и находить закономерности в тексте.

Нам нужно это сделать, потому что многие приложения используют НЛП для применения машинного обучения. Давайте возьмем пример, когда мы классифицируем, есть ли в твите суицидальные мысли или нет, что мы делаем?? мы не можем просто дать алгоритму машинного обучения текст и заставить его классифицировать, машины не понимают, что это такое, машинам нужны только правильные числа, поэтому здесь вступает в действие НЛП.

В конце процесса НЛП над текстом мы получим числовую форму текста, а затем можем передать его машине для анализа, так что давайте начнем.

Процесс НЛП состоит из нескольких шагов.

Удаление ненужных символов
Удаление стоп-слов
Стемминг
лемматизация
Преобразование текста в матрицу

Удаление ненужных символов

Данный текст будет почти грамматическим выражением, таким как , . ! и так далее.. поэтому нам нужно удалить это, и мы используем библиотеку под названием re обозначает регулярные выражения

Удаление стоп-слов

Прежде чем удалить стоп-слова, мы должны преобразовать текст в токены, а токены — это не что иное, как список слов, которые есть в тексте, например, если у нас есть такой текст, как дела токены выглядят следующим образом: [hi, how, are, you, do]и затем мы удаляем стоп-слова из токенов стоп-слова — это общие английские слова, которые мы используем для соединения и завершения предложений, таких как и, где, как, когда, тогда и т.д.…вы поняли..!

Стемминг

После удаления токенов мы преобразуем каждое слово в токенах в его базовую или корневую форму, например, running становится run, а going становится go и т. д.….

лемматизация

Лемматизация — это то же самое, что и выделение корней, но с другим процессом удаления конечных слов. Как правило, мы не делаем эти две вещи для одного и того же текста, это зависит от текста, над которым вы работаете.

Преобразование текста в матрицу

Когда мы закончим стемпинг или лемматизацию, тогда текст все еще находится в токенах, и мы просто соединяем каждый токен с пробелом между ними и переходим к этому, затем проверяем вес для каждого слова и затем помещаем его в матричную форму, а затем, наконец, эту матрицу могут быть введены в алгоритм машинного обучения и предсказывать результаты.

Прежде всего, они реализованы в библиотеке под названием NLKT на языке python.

Надеюсь, вам понравилась статья, не стесняйтесь оставлять комментарии и хлопать/лайкать.

Еще раз спасибо за чтение……. увидимся снова в следующей статье