Что такое обработка естественного языка (NLP)?

Что такое НЛП?

Вы читаете этот блог и обрабатываете его, чтобы понять его полное значение, намерение автора и настроение, ну вот и все! Когда это делает компьютер, это называется обработкой естественного языка. НЛП — это область искусственного интеллекта (ИИ), которая использует статистику, алгоритмы машинного обучения и глубокого обучения, чтобы понимать человеческий язык почти так же, как мы, а затем генерировать текст, понятный и понятный человеку.

Варианты использования НЛП

Обработка естественного языка активно используется в ряде областей для эффективного выполнения множества задач, некоторые из этих вариантов использования упомянуты ниже.

Классификация спама:

Google и многие другие компании используют возможности NLP, чтобы отличать спам-сообщения, SMS и тексты от законных. NLP может идентифицировать лингвистические шаблоны, чтобы отсеять спам.

Машинный перевод:

Одним из основных примеров НЛП является перевод текста с одного языка на другой с помощью автоматизированной программы, перевод основного текста состоит не только в последовательной замене слов с одного языка на другой, машина должна изучить синтаксис, Семантика и прагматика обоих языков для создания правильного перевода текста. Энтони Эттингер, пионер машинного перевода в Гарварде, рассказал историю о ранней системе перевода с английского на русский, спонсируемой спецслужбами США. Английское предложение «Дух желает, но плоть немощна». было переведено на русский, а затем снова переведено обратно на английский, в результате чего получилось «Водка готова, но мясо протухло». сегодня с помощью Google Translate оно переводится как «Дух бодр, но плоть немощна».

Чат-бот:

Чат-боты — одно из наиболее широко используемых приложений для обработки естественного языка, примеры включают Siri от Apple, Alexa от Amazon и чат-боты от Discord. Чат-боты позволяют компаниям автоматизировать основные задачи поддержки клиентов и значительно улучшить качество обслуживания клиентов, поскольку клиенты могут сразу же получать ответы на свои вопросы, не дожидаясь и не взаимодействуя с человеком. С помощью виртуальных помощников, таких как Siri от Apple, Google Assistant и Amazon Alexa, вы можете задавать вопросы о том, что вам нужно, в разговоре, а чат-бот может уточнять ваши запросы, задавая дополнительные вопросы.

Обобщение текста:

Еще одним инструментом, который использует обработку естественного языка для помощи среднему читателю, является суммирование текста. Обобщение текста использует НЛП для разбивки больших объемов текста, например научных статей, тематических исследований и т. д., и создания синопсисов для занятых читателей, у которых нет времени просматривать весь текст. Программное обеспечение для реферирования текста использует генерацию естественного языка (NLG) для включения в рефераты полезного контекста.

Инструменты и ресурсы для выполнения НЛП

НЛТК:

Язык программирования Python предоставляет широкий спектр инструментов и библиотек для выполнения многих методов НЛП. Многие из них можно найти в Natural Language Toolkit, или NLTK, коллекции библиотек, программ и образовательных ресурсов с открытым исходным кодом для создания программ НЛП. Он предоставляет простые в использовании интерфейсы для более чем 50 корпусов и лексических ресурсов, таких как WordNet, а также библиотеки обработки текста для классификации, токенизации, определения корней, тегов, синтаксического анализа и семантических рассуждений.

Обнимание лица:

Hugging Face, Inc. предоставляет инструменты для создания приложений с использованием машинного обучения. Он наиболее примечателен своей библиотекой Transformers, созданной для приложений обработки естественного языка, а его платформа позволяет пользователям обмениваться моделями машинного обучения и наборами данных, вдохновленными функциями GitHub, для совместной работы и совместного использования кода. Компания Hugging Face, Inc. привлекла 15 миллионов долларов на создание окончательной библиотеки НЛП. Hugging Face значительно расширила свой опыт обработки речи.

API Google Cloud NLP:

Cloud Natural Language API предоставляет разработчикам технологии понимания естественного языка, включая анализ тональности, анализ сущностей, анализ тональности сущностей, классификацию контента и анализ синтаксиса. Этот API является частью более крупного семейства API облачного машинного обучения.

Компоненты НЛП

NLU (понимание естественного языка)

NLU обеспечивает взаимодействие человека с компьютером. Именно понимание человеческих языков, таких как английский, испанский и французский, например, позволяет компьютерам понимать команды без формализованного синтаксиса компьютерных языков. NLU также позволяет компьютерам общаться с людьми на их языках.

NLG (генерация естественного языка)

Генерация естественного языка (NLG) — это использование программирования искусственного интеллекта (ИИ) для создания письменных или устных повествований из набора данных. NLG связан с взаимодействием человека с машиной и машиной с человеком, включая вычислительную лингвистику, обработку естественного языка (NLP) и понимание естественного языка (NLU).

Шаги предварительной обработки НЛП

Прежде чем мы сможем обучить какую-либо модель машинного обучения на нашем тексте, мы должны применить некоторую предварительную обработку. Несмотря на то, что существует множество методов предварительной обработки, некоторые из наиболее распространенных были упомянуты ниже.

Токенизация:

Это процесс разделения или разделения текста на список токенов. Мы можем рассматривать токены как части, например, слово — это токен в предложении, а предложение — это токен в абзаце. Предварительная обработка НЛП включает в себя токенизацию абзацев в предложения и токенизацию предложений в слова.

Нижний корпус:

Преобразование слова в нижний регистр (CASING → регистр). Такие слова, как Book и book, означают одно и то же, но если мы используем их для обработки естественного языка, компьютер будет рассматривать их как два отдельных слова и кодировать их для обработки по отдельности.

Удаление стоп-слов:

Стоп-слова — это наиболее часто используемые слова, которые не придают контекстуального значения данному тексту, например, такие как артикли, предлоги, местоимения и т. д. Удаление стоп-слов уменьшает размер набора данных, сокращая время обучения из-за меньшего количества токенов, участвующих в анализе. обучение.

Лемматизация:

Лемматизация — это метод нормализации, позволяющий свести слова к их корневым словам. Например, такие слова, как «летать, летать, летать» после применения методов лемматизации сокращаются до своего основного слова «летать». Этот этап предварительной обработки значительно уменьшает количество слов или токенов, задействованных в НЛП, что, в свою очередь, уменьшает размер набора данных и время обучения.

Вывод:

Подобно лемматизации, стемминг также является методом нормализации, позволяющим сводить слова к их основным словам, такие слова, как «история», «исторический», после применения метода стемминга сокращаются до их основного слова «история». Работа над стеммингом путем отсечения конца или начала слова с учетом списка распространенных префиксов и суффиксов. Этот метод не всегда возвращает осмысленное слово, как видно из приведенного выше примера.

Трансформеры

Несмотря на то, что существует множество моделей, используемых для обработки естественного языка, в настоящее время в моде трансформеры. Преобразователь — это тип архитектуры нейронной сети, известный своим вниманием к свойствам. Преобразователи в настоящее время являются современным средством языкового моделирования, и они используются во всем, от классификации до генеративных моделей. Одна из самых известных архитектур известна как представления двунаправленного кодировщика от трансформаторов (BERT) и была опубликована Google в 2018 году, положив начало эре трансформаторов.

BERT является типом кодировщика и имеет в своей модели только блоки кодировщика, в отличие от того, как языковая модель была построена до этого. Open AI и команда GPT-2 использовали более традиционный подход, используя классический авторегрессионный декодер, позволяя вводу видеть только текущее и предыдущее слова. Модели кодировщика, такие как BERT, обычно используются для задач классификации и различения, тогда как модели декодера, такие как GPT-2, используются для генеративных задач.

Дальнейшее чтение

Учебное пособие по НЛП для начинающих и средних
Исследуйте и запускайте код машинного обучения с помощью Kaggle Notebooks | Использование данных из нескольких источников данныхwww.kaggle.com

Автор: Билал Ариф