Обзор НЛП

Что такое НЛП?

НЛП (обработка естественного языка) — это область исследований в области искусственного интеллекта, целью которой является способность обрабатывать, понимать, анализировать и преобразовывать естественный язык, создаваемый людьми. Поскольку он все еще содержит проблемы, которые не могут быть решены полностью, в него активно вкладывают много инвестиций и исследований. Обработка естественного языка, которая восходит к 1950-м годам, со временем менялась, как и другие области искусственного интеллекта. Наряду с изучением различных методологий, это было определено как неразрешимая область и не было сочтено необходимым вкладывать больше средств в конкретные периоды истории. Однако со временем исследователи начали исследовать НЛП с помощью различных подзадач. Благодаря инновациям в мире компьютерных наук и связанным с ними алгоритмам он снова стал вызывать повышенный интерес. В последнее время в НЛП началась новая эра использования этой технологии, как и во многих областях исследований, где глубокое обучение показало свой эффект, и до сих пор оно будет вращаться вокруг самых современных решений. Он вступил в золотой век с появлением методов обучения.

Вопреки распространенному мнению, более трудоемким, чем обработка числовых данных, на самом деле является знание правил грамматики, метафорических выражений и значений фраз в языке. Часто требуется контекст или предвидение темы текста. Однако при числовой обработке данных математических выражений достаточно для решения задач без какой-либо дополнительной информации, такой как контекст.
Например, мы не можем ожидать, что компьютер будет знать, что вода — это жидкая форма, а лед — это твердая форма, но с помощью статистических методов мы можем понять, что эти два термина могут быть связаны друг с другом. инструменты и полученные данные должны быть проанализированы: ожидается, что к 2025 году данные, которые будут предоставляться ежедневно, будут составлять 463[1] экзабайт (что эквивалентно 212 765 957 DVD). Мы можем думать, что большая часть этих данных состоит из письменного контента или контента, который можно перевести в текст (видео, аудио). В этом измерении мы все знаем, что невозможно запустить операцию, чтобы контент, созданный людьми на их родном языке, можно было проанализировать и понять. По этой причине технологии, которые делают данные такого размера значимыми для анализа на различных уровнях, становятся жизненно необходимыми.

Каковы примеры того, что НЛП часто затрагивает нашу жизнь сегодня?

При поиске, который вы выполняете в Google, поисковая система должна сначала понять, что вы написали, чтобы иметь возможность рекомендовать объявление, подходящее для вашего поиска, чтобы оно могло представить вам объявления, связанные с вашим поиском. При поиске местоположения мы можем рассматривать его как конкретный пример предложения рейсов в этот пункт назначения, отелей для проживания или ресторанов для посещения. Кроме того, системы, которые могут отличать ваши спам-сообщения от входящих, делают это с помощью НЛП. Наши умные помощники, которых мы часто используем в повседневной жизни, понимают, что мы говорим, и выдают соответствующие ответы и решения, используя технологии НЛП.

Семантический поиск:

В классических алгоритмах поиска путем поиска ключевых слов для поиска источники этих слов перечисляются алгоритмами ранжирования и получаются результаты.
Семантический поиск, с другой стороны, позволяет искать значимые слова, близкие к этим словам в источниках, учитывая не только эти ключевые слова, но и их значения. Метод семантического поиска также использует методы обобщения и извлечения дерева понятий на стороне искомых источников, что позволяет понять, какие термины являются более важными в этих источниках, и выделяет источник в результатах поиска при совпадении ключевых слов. эти условия

Чат-бот:

Чат-боты — это цифровые помощники, которые могут общаться с пользователями на естественном языке. Бот, в котором мы можем вести все разговоры с человеком, обладающим большими общими знаниями, и комфортно общаться со всем богатством языка, является идеальной точкой для разработки чат-ботов. Однако существующие системы еще не создали такого бота.
На данный момент чат-боты часто используются для того, чтобы направлять пользователей в определенной области, выслушивать их проблемы или информировать их по конкретным вопросам. Благодаря чат-ботам можно значительно сократить усилия, затрачиваемые на общение с клиентом. В Турции мы видим, что многие банки активно используют эти системы в обслуживании клиентов.

При функционировании чат-ботов, используя понимание естественного языка, намерения и обнаружение активов, методы извлечения ключевых слов, какую информацию пользователь хочет сказать в своем выражении, какую информацию он предоставляет, например специальное имя, торговую марку , дата, место и то, что является предметом выражения получается.

Затем используются различные методы, такие как обобщение и семантический поиск, чтобы создать подходящий ответ для чат-бота, чтобы генерировать информацию из имеющихся у него ресурсов.

При выражении ответа в игру вступают техники естественного языка.

Анализ социальных сетей

Агентства, которые следят за СМИ от имени компаний, были заменены инструментами, которые автоматически отслеживались в результате увеличения количества онлайн-публикаций и улучшений в обработке естественного языка. Эти инструменты могут мгновенно собирать все данные о компании как из онлайн-газет и журналов, так и из приложений социальных сетей. Алгоритмы семантического поиска, упомянутые выше, также очень полезны при принятии решений о том, какие данные имеют отношение к компании при сборе данных. После сбора данных выполняются различные анализы с использованием методов обработки естественного языка, чтобы представить эти данные компании. Вот несколько примеров из этих анализов:

Обобщение собранных данных и выделение основных моментов, чтобы сделать их достаточно краткими, чтобы человек мог прочитать их за разумное время.
Анализы, такие как наиболее упоминаемая тема, полученная путем классификации данных в соответствии с их предметами с помощью методов обучения с учителем или без учителя, темы, которые более подчеркнуты по сравнению с прошлым месяцем, и новые программы, которые выделяются в этом месяце.
Информация о семантическом анализе данных и информация о том, какие темы являются положительными и отрицательными для компании

Анализ удовлетворенности клиентов

Многие из анализов, которые мы упоминали в разделе мониторинга социальных сетей, также можно использовать для анализа удовлетворенности клиентов. При анализе удовлетворенности клиентов компании часто используют данные, отражающие их индивидуальное общение со своими клиентами, а также онлайн-ресурсы. Этими данными могут быть данные выступлений чат-бота компании, электронные письма с просьбами/жалобами, отправленные на адрес открытой почты, или опросы удовлетворенности, проведенные после контакта с клиентом.
Последующие опросы являются стандартным методом для отслеживание удовлетворенности клиентов. Опросы с множественным выбором, как правило, предпочтительнее для автоматического анализа результатов этих данных, но этих опросов может быть недостаточно для полного самовыражения клиента. В этих случаях методы обработки естественного языка вступают в игру для открытых вопросов и их анализа.
Таким образом можно получить гораздо более полную и подробную версию информации, которую можно получить из вопросов анкеты с несколькими вариантами ответов. .
Для удовлетворенности клиентов особенно важно, к какому классу относится комментарий клиента. Методы обработки естественного языка могут мгновенно классифицировать каждый новый комментарий и помечать его такими ярлыками, как благодарности, жалобы, просьбы. В результате такой маркировки компания может идентифицировать комментарии, которым она будет придавать приоритетное значение, и расставлять приоритеты в их реализации, а также предотвращать распространение негативных комментариев или увеличивать постоянство положительных впечатлений.

Подходы к решению для НЛП:

С течением времени большинство проблем в НЛП пытались решить различными методами. Подходы, основанные на правилах, которые являются часто используемыми методологиями, особенно в ранние периоды, оказались очень распространенными и продолжали эту гегемонию в течение очень долгого времени. Тем не менее, исследователи неоднократно демонстрировали, что подходы к кодированию на основе правил не так просты в разработке, как предполагалось. Потому что многие правила, выдвинутые для определения языка в формальную схему, противоречат друг другу в сложных примерах и решения остаются лишь локальными решениями. По этим причинам широкое распространение получило использование автоматов[2], допускающих формальные языки.

Тем не менее неоднократно демонстрировалось, что все проблемы, связанные с НЛП, не могут быть решены даже при определении таких правил. Например, бесполезно использовать правила для решения задач, где нужны контекстные знания. Устранение неопределенностей на морфологическом[3] уровне, часто встречающемся в аддитивных языках, таких как турецкий, требует полностью контекстно-зависимого решения в предложении. «O elmayı ve yerine koyun.», что означает «Возьми это яблоко и положи его обратно». При морфологическом анализе слова «алын». В предложении встречается более одного результата. «alın», который определяет область на человеческом лице — лоб.

Когда дело доходит до моделей на основе данных, технология машинного обучения включает в себя первые методы, которые приходят на ум. Эти модели, которые обычно нацелены на создание модели прогнозирования на основе исторических данных, генерируют лицо, принимающее решения, путем создания статистических или вероятностных моделей на основе данных. Модели машинного обучения, которые обеспечивают более удобные и успешные решения, чем системы, основанные на правилах, не требуют вмешательства человека или интеллектуальных усилий, поскольку обучаются на данных самостоятельно. Однако по сравнению с моделями, основанными на правилах, их недостатком является то, что им нужны данные. Потому что получить эталонные данные (обучающий набор), который называется золотым стандартом, очень дорого. Однако модели машинного обучения, которые обеспечивают более высокие показатели успешных решений проблем, сегодня представлены почти как единственное решение.

Какие трудности возникают при решении НЛП?

Упомянем несколько примеров, которые показывают, что НЛП все еще остается открытой и полностью нерешенной проблемой.

двусмысленность

Проблемы, которые мы называем двусмысленностью (неопределенностью) на различных уровнях, встречаются в исследованиях обработки естественного языка. Неоднозначность — это проблема, заключающаяся в том, что возможно более одного ответа, и невозможно решить, какой из них является правильным. Например, встречающиеся слова, имеющие одинаковый внешний вид в поверхностной форме, но имеющие разные качества с точки зрения морфологического анализа, при правильном анализе в предложениях. Пример слова alın был приведен в предыдущих главах этой статьи. В Speech & Language Processing (https://web.stanford.edu/~jurafsky/slp3/) пример двусмысленности, возникающей в смысле предложения, приводится следующим образом.

Я заставил ее пригнуться. [4]

Я приготовил для нее водоплавающих птиц
Я приготовил водоплавающих птиц, принадлежащих ей
Я создал утку, которой она владеет.
Я заставил ее быстро опустить тело или голову
Я взмахнул своей волшебной палочкой и превратил ее в недифференцированную водоплавающую птицу.

Синоним

Другое важное явление естественных языков заключается в том, что мы можем выражать одну и ту же идею разными терминами, которые также зависят от конкретного контекста: большие и огромные, они могут быть синонимами при определении объекта или структуры, но не могут быть заменены во всех контекстах. В качестве другого примера, слова «дом» и «дом» являются синонимами, но они не могут использоваться взаимозаменяемо в этом предложении: «Мой дом — это дом с двумя спальнями».

Потому что «дом» относится к месту, где вы живете, а «дом» относится к месту, к которому, по вашему мнению, вы принадлежите.

В задачах НЛП система должна уметь использовать информацию о синонимичности и различные способы именования одного и того же объекта или явления, особенно когда речь идет о высокоуровневых задачах, имитирующих человеческий диалог.

Корреферентное разрешение

Процесс нахождения всех выражений, относящихся к одному и тому же объекту в тексте, называется разрешением кореферентности. Этот шаг является важным шагом для многих высокоуровневых задач НЛП, которые включают понимание естественного языка, таких как обобщение документов, ответы на вопросы и извлечение информации. Эта проблема, которая была очень сложной для практиков НЛП в последние годы, пережила возрождение с введением новейших методов глубокого обучения и обучения с подкреплением. В настоящее время предполагается, что нейронные архитектуры НЛП, такие как RNN (рекуррентная нейронная сеть) и LSTM (долгосрочная память), могут быть полезны для повышения производительности решения для идентификации.

Пример,

Дэвид пошел на концерт. Он сказал, что это было потрясающим опытом.

Он относится к Дэвиду.
Это относится к концерту.

Каждый раз, когда я навещаю ее, бабушка печет мне печенье.

Она относится к моей бабушке.

Этапы НЛП:

Обработка естественного языка имеет внутри себя подзадачи, как и другие области обучения. Каждое из этих подполей все еще находится в стадии исследования, и почти ни одно из них не было полностью решено. Язык — это живое существо, и он основан не только на мгновенном знании, но и на его накоплении. Следовательно, декодирование языка возможно только путем декодирования человеческого познания в его полной мере.

Подполя обработки естественного языка предназначены для решения широкого круга задач, от анализа голоса до анализа дискурса. И мы можем только отметить завершение высокоуровневого анализа успешным выполнением этих задач снизу вверх.

Фонология: на этом этапе исследуются звуки, которые люди используют при использовании языка, и звуковые ассоциации, составляющие язык.
Морфология: это слой, который исследует структуру слов (например, основы, корневые слова, префиксы и суффиксы).
Синтаксис: это слой, который исследует отношения между словами и последовательностью предложений.
Семантический: это слой, который исследует значения слов и общее значение, которое они создают для предложений и текста, когда они собираются вместе.

Дело в том, что обработка естественного языка сегодня привлекает большое внимание, так это то, что эта технология будет использоваться во всех системах, которые будут поддерживать людей в будущем. Когда мы говорим о человекоподобной машине, одной из наиболее важных характеристик, определяющих ее, является то, что она может общаться. Учитывая, что естественный язык является наиболее важной частью общения между людьми, всем известно, что обработка естественного языка еще долго сохранит свое место среди исследователей и последователей технологий.

[1] https://www.weforum.org/agenda/2019/04/how-much-data-is-generated-each-day-cf4bddf29f/

[2] — это абстрактные модели машин, которые выполняют вычисления на входе, действуя в нескольких состояниях или конфигурациях.

[3] Морфологический анализ при обработке естественного языка — это процесс определения морфем, из которых состоит данное слово.

[4] Джурафский, Д. (2000). Обработка речи и языка. Pearson Education India.

Ссылки

Сколько данных генерируется каждый день?
И это число будет только увеличиваться. Ожидается, что вся цифровая вселенная достигнет 44 зеттабайт (да, зеттабайт) к…www.weforum.org

https://www.dataversity.net/everything-you-need-to-know-about-nlp-and-its-use-cases/#

https://arxiv.org/pdf/1706.01863.pdf

https://medium.com/sciforce/biggest-open-problems-in-natural-language-processing-7eb101ccfc9

Первоначально опубликовано на https://www.artiwise.com 7 мая 2020 г.