Что такое НЛП?
Вы читаете этот блог и обрабатываете его, чтобы понять его полное значение, намерение автора и настроение, ну вот и все! Когда это делает компьютер, это называется обработкой естественного языка. НЛП — это область искусственного интеллекта (ИИ), которая использует статистику, алгоритмы машинного обучения и глубокого обучения, чтобы понимать человеческий язык почти так же, как мы, а затем генерировать текст, понятный и понятный человеку.
Варианты использования НЛП
Обработка естественного языка активно используется в ряде областей для эффективного выполнения множества задач, некоторые из этих вариантов использования упомянуты ниже.
Классификация спама:
Google и многие другие компании используют возможности NLP, чтобы отличать спам-сообщения, SMS и тексты от законных. NLP может идентифицировать лингвистические шаблоны, чтобы отсеять спам.
Машинный перевод:
Одним из основных примеров НЛП является перевод текста с одного языка на другой с помощью автоматизированной программы, перевод основного текста состоит не только в последовательной замене слов с одного языка на другой, машина должна изучить синтаксис, Семантика и прагматика обоих языков для создания правильного перевода текста. Энтони Эттингер, пионер машинного перевода в Гарварде, рассказал историю о ранней системе перевода с английского на русский, спонсируемой спецслужбами США. Английское предложение «Дух желает, но плоть немощна». было переведено на русский, а затем снова переведено обратно на английский, в результате чего получилось «Водка готова, но мясо протухло». сегодня с помощью Google Translate оно переводится как «Дух бодр, но плоть немощна».
Чат-бот:
Чат-боты — одно из наиболее широко используемых приложений для обработки естественного языка, примеры включают Siri от Apple, Alexa от Amazon и чат-боты от Discord. Чат-боты позволяют компаниям автоматизировать основные задачи поддержки клиентов и значительно улучшить качество обслуживания клиентов, поскольку клиенты могут сразу же получать ответы на свои вопросы, не дожидаясь и не взаимодействуя с человеком. С помощью виртуальных помощников, таких как Siri от Apple, Google Assistant и Amazon Alexa, вы можете задавать вопросы о том, что вам нужно, в разговоре, а чат-бот может уточнять ваши запросы, задавая дополнительные вопросы.
Обобщение текста:
Еще одним инструментом, который использует обработку естественного языка для помощи среднему читателю, является суммирование текста. Обобщение текста использует НЛП для разбивки больших объемов текста, например научных статей, тематических исследований и т. д., и создания синопсисов для занятых читателей, у которых нет времени просматривать весь текст. Программное обеспечение для реферирования текста использует генерацию естественного языка (NLG) для включения в рефераты полезного контекста.
Инструменты и ресурсы для выполнения НЛП
НЛТК:
Язык программирования Python предоставляет широкий спектр инструментов и библиотек для выполнения многих методов НЛП. Многие из них можно найти в Natural Language Toolkit, или NLTK, коллекции библиотек, программ и образовательных ресурсов с открытым исходным кодом для создания программ НЛП. Он предоставляет простые в использовании интерфейсы для более чем 50 корпусов и лексических ресурсов, таких как WordNet, а также библиотеки обработки текста для классификации, токенизации, определения корней, тегов, синтаксического анализа и семантических рассуждений.
Обнимание лица:
Hugging Face, Inc. предоставляет инструменты для создания приложений с использованием машинного обучения. Он наиболее примечателен своей библиотекой Transformers, созданной для приложений обработки естественного языка, а его платформа позволяет пользователям обмениваться моделями машинного обучения и наборами данных, вдохновленными функциями GitHub, для совместной работы и совместного использования кода. Компания Hugging Face, Inc. привлекла 15 миллионов долларов на создание окончательной библиотеки НЛП. Hugging Face значительно расширила свой опыт обработки речи.
API Google Cloud NLP:
Cloud Natural Language API предоставляет разработчикам технологии понимания естественного языка, включая анализ тональности, анализ сущностей, анализ тональности сущностей, классификацию контента и анализ синтаксиса. Этот API является частью более крупного семейства API облачного машинного обучения.
Компоненты НЛП
NLU (понимание естественного языка)
NLU обеспечивает взаимодействие человека с компьютером. Именно понимание человеческих языков, таких как английский, испанский и французский, например, позволяет компьютерам понимать команды без формализованного синтаксиса компьютерных языков. NLU также позволяет компьютерам общаться с людьми на их языках.
NLG (генерация естественного языка)
Генерация естественного языка (NLG) — это использование программирования искусственного интеллекта (ИИ) для создания письменных или устных повествований из набора данных. NLG связан с взаимодействием человека с машиной и машиной с человеком, включая вычислительную лингвистику, обработку естественного языка (NLP) и понимание естественного языка (NLU).
Шаги предварительной обработки НЛП
Прежде чем мы сможем обучить какую-либо модель машинного обучения на нашем тексте, мы должны применить некоторую предварительную обработку. Несмотря на то, что существует множество методов предварительной обработки, некоторые из наиболее распространенных были упомянуты ниже.
Токенизация:
Это процесс разделения или разделения текста на список токенов. Мы можем рассматривать токены как части, например, слово — это токен в предложении, а предложение — это токен в абзаце. Предварительная обработка НЛП включает в себя токенизацию абзацев в предложения и токенизацию предложений в слова.
Нижний корпус:
Преобразование слова в нижний регистр (CASING → регистр). Такие слова, как Book и book, означают одно и то же, но если мы используем их для обработки естественного языка, компьютер будет рассматривать их как два отдельных слова и кодировать их для обработки по отдельности.
Удаление стоп-слов:
Стоп-слова — это наиболее часто используемые слова, которые не придают контекстуального значения данному тексту, например, такие как артикли, предлоги, местоимения и т. д. Удаление стоп-слов уменьшает размер набора данных, сокращая время обучения из-за меньшего количества токенов, участвующих в анализе. обучение.
Лемматизация:
Лемматизация — это метод нормализации, позволяющий свести слова к их корневым словам. Например, такие слова, как «летать, летать, летать» после применения методов лемматизации сокращаются до своего основного слова «летать». Этот этап предварительной обработки значительно уменьшает количество слов или токенов, задействованных в НЛП, что, в свою очередь, уменьшает размер набора данных и время обучения.
Вывод:
Подобно лемматизации, стемминг также является методом нормализации, позволяющим сводить слова к их основным словам, такие слова, как «история», «исторический», после применения метода стемминга сокращаются до их основного слова «история». Работа над стеммингом путем отсечения конца или начала слова с учетом списка распространенных префиксов и суффиксов. Этот метод не всегда возвращает осмысленное слово, как видно из приведенного выше примера.
Трансформеры
Несмотря на то, что существует множество моделей, используемых для обработки естественного языка, в настоящее время в моде трансформеры. Преобразователь — это тип архитектуры нейронной сети, известный своим вниманием к свойствам. Преобразователи в настоящее время являются современным средством языкового моделирования, и они используются во всем, от классификации до генеративных моделей. Одна из самых известных архитектур известна как представления двунаправленного кодировщика от трансформаторов (BERT) и была опубликована Google в 2018 году, положив начало эре трансформаторов.
BERT является типом кодировщика и имеет в своей модели только блоки кодировщика, в отличие от того, как языковая модель была построена до этого. Open AI и команда GPT-2 использовали более традиционный подход, используя классический авторегрессионный декодер, позволяя вводу видеть только текущее и предыдущее слова. Модели кодировщика, такие как BERT, обычно используются для задач классификации и различения, тогда как модели декодера, такие как GPT-2, используются для генеративных задач.
Дальнейшее чтение
Автор: Билал Ариф