Когда вы думаете об обработке естественного языка (НЛП), у вас, вероятно, возникает множество вопросов, чтобы проиллюстрировать, как начать работу или какие шаги стоят за НЛП. Хотя я прочитал множество статей, мне было трудно понять шаги, лежащие в основе этого, и поэтому я попытался написать что-нибудь в этой статье, чтобы осветить фундаментальную концепцию НЛП. В этой статье вы узнаете об этапах обработки естественного языка и о том, как преобразовать текстовые данные в числовое представление с использованием алгоритма на основе НЛП.

Итак, приступим………………………………………………………………………………………………………….

Об обработке естественного языка (NLP)

Прежде чем начать делать шаги в направлении НЛП, вам нужно иметь некоторое базовое представление о нем, которое может быть более полезным, чем двигаться вперед к практической реализации. Ну, как люди, мы обычно выражаем свои чувства, идеи или что-то еще с помощью нашего языка. Подумайте о компьютере, который не распознает язык человека, тогда как компьютер питается от его языка или языка машины. Итак, простым определением НЛП являетсяпроцесс преобразования компьютера в разум с помощью различных методов для понимания человеческого языка.

Применение обработки естественного языка (NLP)

В нашей современной жизни НЛП используется повсеместно, особенно в компьютерных науках. Тем не менее, фильтрация спама по электронной почте, сенсорный анализ, ответы на вопросы, анализ эмоций, классификация текстов, идентификация абзацев, проверка орфографии, машинный перевод и т. д. Многочисленные исследования были проведены в области НЛП. В настоящее время различные компании используют анализ настроений, чтобы узнать мнение и отзывы клиентов из Интернета. Например, мы предоставляем отзывы о различных продуктах, особенно при совершении покупок в Интернете. Невозможно определить мнения в тысячах отзывов или комментариев, поэтому во многих организациях используется анализ настроений. Обычно он используется для определения отзывов клиентов, негативных, позитивных или того, что они думают о продукте, что помогает компании понять, какой продукт хочет пользователь, а какой нет.

Обработка текста

Самой сложной частью является обработка человеческого языка, потому что она очень сложная, кроме того, технологии придумали все замечательные алгоритмы, а также некоторые языки программирования, которые сделали нашу жизнь проще. Python является наиболее рекомендуемым языком программирования для обработки естественного языка. Прежде чем приступить к технической реализации, необходимо знать некоторый алгоритм визуализации текста. Предположим, у вас есть какие-то текстовые данные, и если вы отдадите эти данные модели машинного обучения, машина не поймет ваши данные, потому что машинное обучение принимает только числовые значения. Итак, нам нужно преобразовать наши текстовые данные в форму числовых значений. Как мы можем преобразовать текстовые данные в числовое представление? Да, некоторые невероятные алгоритмы дают нам эти преимущества, например, Bag of Words (BOW), термин частотно-инверсный документ (TF-IDF), word2vec и так далее. Теперь я собираюсь описать алгоритм TF-IDF для числового представления. Подведем итоги……………………………………….

Предположим, что следующие данные являются вашим образцом корпуса:

Предложение 1. Элиас — хороший мальчик.

Предложение 2: Элиас проводит исследования в области НЛП.

Предложение 3: я собираюсь встретиться с КРИСОМ Хемсвортом

ШАГ 01. Преобразуйте каждое предложение в меньший регистр

Первый шаг требует преобразовать каждое предложение в меньший регистр. В некоторых случаях могут быть исключения, например, США, США, Великобритания, Индия, Бангладеш и так далее. В таком случае США и мы не эквивалентны. Название страны должно начинаться с заглавной буквы, поэтому, если вы преобразовали его в нижний регистр, это может быть исключением. Что вы можете сделать, так это сохранить специальные слова в отдельном списке, а позже вы можете сохранить определенные слова, а остальные слова вы можете опустить в предложениях.

После преобразования каждого предложения в меньший регистр:

Выходное предложение 1:Элиас — хороший мальчик

Вывод предложения 2: Элиас проводит исследования в области nlp

Вывод предложения 3: я собираюсь встретиться с Крисом Хемсвортом

ШАГ 02. Разметьте предложения

На этом шаге необходимо преобразовать каждое предложение в отдельное слово. Это процесс токенизации или разделения строки, текста на список токенов. Токен можно рассматривать как компонент, например, слово — это токен в предложении, а предложение — это токен в абзаце. После токенизации предложений вы получите образцы предложений, подобные рис. 1.

ШАГ 03. Используйте стемминг или лемматизацию

Следующий шаг — использование стемминга или лемматизации. В этом случае нам это не нужно, потому что наш набор данных состоит из трех предложений, но в реальной жизни вы должны использовать эту технику. Точно так же, если вы хотите узнать возможное значение в предложениях, а именно отрицательное, положительное, вам не нужно выяснять общее значение предложений. В этом случае вы можете использовать стемминг, потому что для его выполнения требуется несколько раз. С другой стороны, если вы хотите выяснить общее значение каждого предложения, вы можете применить лемматизацию. См. пример ниже, чтобы понять концепцию стемминга и лемматизации. Здесь я пытаюсь объяснить на другом примере.

Пример: Образец данных = «Королева Елизавета II называется Величеством».

После применения стемминга: → королева Елизавета II называется величеством

Здесьнекоторые вещи непонятны, например, величие становится величеством, а призвание становится зовом. Вывод, который я получаю, используя это подобное предложение с использованием техники лемматизации, выглядит следующим образом:

Образец данных = «Королева Елизавета II называется Величеством»

После применения лемматизации: королева Елизавета II именуется величеством

Другой пример: слова «бежит», «бежит» и «бежит» являются формами слова «бегут», поэтому «run” — это лемма всех предыдущих слов.

ШАГ 04. Стоп-слова

Следующий шаг — стоп-слова. нам не нужно все слово, чтобы выяснить сходство или что-то еще. Поэтому мне нужно удалить некоторые ненужные слова, такие как «пунктуация», «точка с запятой», «и», «то» или «до». Нет необходимости в ненужных словах для обработки текста, поскольку это еще больше замедляет процесс, поэтому использование стоп-слова, с одной стороны, ускоряет процесс, а с другой стороны, облегчает обработку текста.

ШАГ 05. Гистограмма TF-IDF

На этом этапе мы создадим гистограмму, потому что сначала нам нужно увидеть, сколько раз каждое слово встречается в предложении. Если слово повторяется в каждом слове, мы будем считать. Рис.2. показывает гистограмму для нашего образца набора данных.

ШАГ 06. Сортировка гистограммы

На этом этапе мы отсортируем нашу гистограмму, которую мы сделали сейчас. Мы будем сортировать гистограмму по частоте, например, в предложении слово, которое было замечено больше и частота выше, мы расположим слово с большим приоритетом, а слова с более низкой частотой - с меньшим приоритетом. Наконец, мы должны выбрать максимальные значения частоты в гистограмме. Поскольку у нас получилось около 18 слов, мы выберем 10 наиболее часто встречающихся слов. Поскольку наш набор данных небольшой, я постараюсь показать его таким образом, не беря максимальное значение.

Наша задача по очистке текста завершена, поэтому на этом этапе мы будем использовать алгоритм TF-IDF для преобразования нашего текста в числовое значение. Машинное обучение не принимает текстовые данные, поэтому нам нужно преобразовать данные в машинный язык.

ШАГ 07. Примените частотность термина (TF)

На этом этапе мы будем применять термин частота в нашей гистограмме. Давайте посмотрим на правила частоты терминов (TF) и на то, как мы можем достичь нашей цели. Теперь создадим матричную таблицу частоты терминов.

Частота термина > количество повторяющихся слов в предложении/количество слов в предложении.

Пояснение:

Обратите внимание на таблицу выше. На рис. 3 показано моделирование TF. Слово «элиас» встречается один раз в предложении 1, а общее количество слов равно 5, поэтому дается 1/5 точно так же, как 1/8 дается в предложении 2. Но слова «элиас» нет в предложении 3, поэтому ноль имеет было дано. Все сделано таким же образом.

ШАГ 08. Примените обратную частоту документа (IDF)

На этом шаге мы применим обратную частоту документа. Давайте посмотрим на правила обратной частоты документов (IDF) и на то, как мы можем достичь нашей цели.

Обратная частота документа (IDF) → log(Количество предложений/Количество повторяющихся слов в предложениях.

На рис. 4 в основном показано моделирование IDF. Слово «элиас» встречается в предложениях два раза, а общее предложение равно 3, поэтому ему дается log(3/3) таким же образом, как log(3/1) дается в предложениях 2 и 3. Последовательность деталей показана на рис.4.

ШАГ 09. Примените термин «частотно-обратная частота документа» (TF-IDF)

На этом этапе мы будем применять термин частотно-обратная частота документа (TF-IDF). мы покажем полную комбинацию. Давайте посмотрим, как мы можем достичь нашей цели.

TF-IDF= TF*IDF

Если мы умножим созданную нами матричную таблицу на частоту трамвая и обратную частоту документа, то получим TF-IDF. См. рис.5. Последовательность деталей и последствия показаны на рис.5.

ШАГ 10. Выберите модель машинного обучения

Наш текст был обработан, и мы преобразовали его в числовое представление. На этом этапе вам нужно выбрать модель машинного обучения, если вы хотите использовать машинное обучение и обучать обработанные данные, подгоняя их под алгоритм, который в основном соответствует нашей желаемой цели.

Заключение

В заключение, эта статья иллюстрирует этап обработки естественного языка (NLP). Обычно можно найти множество алгоритмов NLP, в этой статье мы использовали алгоритм TF-IDF, потому что он намного лучше подходит для нашей повседневной работы. Тем не менее, пункты, затронутые в этой статье, следующие:

  • Во-первых, преобразовано каждое предложение в меньший случай.
  • во-вторых, Tokenized предложения.
  • В-третьих, использовали стемминг и лемматизацию и применяли стоп-слова.
  • Затем сделал гистограмму TF-IDF.
  • Затем отсортировал гистограмму
  • Наконец, примените термин «частотно-обратная частота документа» (TF-IDF).

Если есть ошибка, то есть просьба исправить.

Всего наилучшего и удачи.

Если вы хотите увидеть мое последнее обновление и публикацию, подпишитесь на меня по адресу:

Исследовательские ворота: https://www.researchgate.net/profile/Elias_Hossain7

Linkedin: https://www.linkedin.com/in/elias-hossain-b70678160/