Здравствуйте, читатели, в сегодняшней статье мы обсуждаем процесс машинного обучения, который конкретно касается текста, который вы читаете, пишете и твитите и так далее…
что такое обработка естественного языка (NLP), это процесс, который выполняется с необработанным текстом для преобразования текста в числа, чтобы компьютер мог понимать и находить закономерности в тексте.
Нам нужно это сделать, потому что многие приложения используют НЛП для применения машинного обучения. Давайте возьмем пример, когда мы классифицируем, есть ли в твите суицидальные мысли или нет, что мы делаем?? мы не можем просто дать алгоритму машинного обучения текст и заставить его классифицировать, машины не понимают, что это такое, машинам нужны только правильные числа, поэтому здесь вступает в действие НЛП.
В конце процесса НЛП над текстом мы получим числовую форму текста, а затем можем передать его машине для анализа, так что давайте начнем.
Процесс НЛП состоит из нескольких шагов.
- Удаление ненужных символов
- Удаление стоп-слов
- Стемминг
- лемматизация
- Преобразование текста в матрицу
Удаление ненужных символов
Данный текст будет почти грамматическим выражением, таким как , . ! и так далее.. поэтому нам нужно удалить это, и мы используем библиотеку под названием re обозначает регулярные выражения
Удаление стоп-слов
Прежде чем удалить стоп-слова, мы должны преобразовать текст в токены, а токены — это не что иное, как список слов, которые есть в тексте, например, если у нас есть такой текст, как дела токены выглядят следующим образом: [hi, how, are, you, do]и затем мы удаляем стоп-слова из токенов стоп-слова — это общие английские слова, которые мы используем для соединения и завершения предложений, таких как и, где, как, когда, тогда и т.д.…вы поняли..!
Стемминг
После удаления токенов мы преобразуем каждое слово в токенах в его базовую или корневую форму, например, running становится run, а going становится go и т. д.….
лемматизация
Лемматизация — это то же самое, что и выделение корней, но с другим процессом удаления конечных слов. Как правило, мы не делаем эти две вещи для одного и того же текста, это зависит от текста, над которым вы работаете.
Преобразование текста в матрицу
Когда мы закончим стемпинг или лемматизацию, тогда текст все еще находится в токенах, и мы просто соединяем каждый токен с пробелом между ними и переходим к этому, затем проверяем вес для каждого слова и затем помещаем его в матричную форму, а затем, наконец, эту матрицу могут быть введены в алгоритм машинного обучения и предсказывать результаты.
Прежде всего, они реализованы в библиотеке под названием NLKT на языке python.
Надеюсь, вам понравилась статья, не стесняйтесь оставлять комментарии и хлопать/лайкать.
Еще раз спасибо за чтение……. увидимся снова в следующей статье