Обработка естественного языка, или НЛП, - это ветвь искусственного интеллекта, которая оказывает глубокое влияние на взаимодействие компьютеров и людей. Сегодня предприятия из всех областей стремятся использовать NLP, чтобы раскрыть огромный объем информации, хранящейся в неструктурированных данных, чтобы помочь автоматизировать бизнес-процессы и, в конечном итоге, получить конкурентное преимущество. Некоторые из центральных проблем в НЛП включают машинный перевод, извлечение знаний, обобщение и ответы на вопросы. Чтобы решить такие проблемы, нам нужно не только понимать нюансы человеческих языков, но также необходимо продвигать современные компьютерные алгоритмы и технологии, чтобы иметь возможность распознавать и поглощать соответствующую информацию из огромных объемов данных. В этой статье мы сосредоточимся на роли контекста в извлечении знаний.

Важность контекста при извлечении знаний

Автоматическое извлечение ключевых понятий, сущностей, элементов данных и их взаимосвязей из документа является одной из центральных проблем извлечения знаний и имеет множество бизнес-приложений. Чтобы иметь возможность извлечь такие знания, точные по отношению к предполагаемому автором смыслу, необходимо хорошее понимание контекста, в котором написан данный документ. Согласно словарю Мерриама-Вебстера, контекст - это « части дискурса, которые окружают слово или отрывок и могут пролить свет на его значение». Без четко определенного контекста слово, концепция, предложение или даже весь документ могут быть неправильно истолкованы. Рассмотрим, например, два предложения ниже, в которых слово «банк» имеет разные значения в зависимости от контекста.

«Мне нравится работать в банке».

«Мне нравится работать на берегу реки».

Первое предложение относится к работе или профессии в банковском учреждении, а второе подчеркивает выполнение некоторой деятельности на берегу реки.

Однако определение надлежащего контекста часто бывает сложной задачей из-за различных уровней абстракций, используемых в экспозициях. Контекст может меняться от документа к документу в корпусе, от абзаца к абзацу в документе, от предложения к предложению в абзаце или даже от фразы к фразе в предложении.

Parabole представляет полный контекст иерархически - с контекстами на уровне домена, на уровне документа, на уровне абзаца и на уровне предложения.

Иерархические контексты в предметно-ориентированном обучении и анализе на уровне документа

Мы представляем контекст уровня предметной области через «графы знаний», которые кодируют словарь предметных понятий, их определения, иерархии, свойства и многогранные отношения, а также набор правил, с помощью которых можно вывести больше отношений. Мы извлекаем такой контекст на уровне предметной области с помощью обработки естественного языка из тщательно отобранных корпусов документов, специфичных для предметной области. Мы называем эту фазу извлечения контекста предметно-ориентированным обучением.

На этапе анализа на уровне документа мы используем фон контекста на уровне предметной области для анализа заданного документа «на лету», выполняя дальнейшую обработку естественного языка. Мы устанавливаем уровень документа и другие более низкие уровни контекстов, извлекая ключевые понятия, именованные сущности и элементы данных, их значения, иерархии и взаимосвязи из документа и сравнивая их с графом знаний. Мы также можем выбрать «постепенное изучение» нашего графа знаний, дополнив его новыми знаниями, извлеченными из документа.

Часто контексты могут быть нечеткими, и мы должны допускать множественные интерпретации. Мы справляемся с такой двусмысленностью, используя вероятностную модель классификации организаций на этапе анализа.

Вероятностная модель классификации юридических лиц

Рассмотрим, например, классификацию названной организации «Summit Bank», упомянутой в документе. Без дополнительного контекста такой банк может быть:

а) финансовое учреждение [в сфере финансов], или

б) Снежный берег, берег реки [в геологии] или

в) Банк крови, банк генов, банк спермы [в биологии и медицине].

Чтобы устранить неоднозначность, мы принимаем во внимание контексты уровня документа, уровня абзаца или предложения. Даже когда информации о сущности недостаточно, вероятностная модель Parabole, основанная на обширной базе знаний о концепциях, сущностях и их категориях, точно определяет типы сущностей. Подобно распознаванию и классификации именованных сущностей, вероятностная модель может использоваться на уровне документа и абзаца для определения распределений контекста.

Извлечение семантических контекстов на уровне предложения

Лингвистического анализа словарных терминов может быть недостаточно, чтобы алгоритмы НЛП правильно применяли полученные знания. Для успешного применения обучения алгоритмы должны «понимать» и «использовать» семантику каждого словарного термина в контексте данного документа. Например, рассмотрим два предложения:

«Согласно ОПБУ США, прибыли и убытки от активов AFS включаются в чистую прибыль».

«Согласно МСФО, прибыли и убытки от активов AFS включаются в совокупный доход».

Оба предложения относятся к «выгодам» и «убыткам» от той или иной формы дохода, но результирующая информация или знания, которые необходимо усвоить, полностью различаются между ними из-за разной семантики. Именно эта комбинация, охватывающая как вероятностные, так и детерминированные методы в решениях когнитивной аналитики Parabole, позволяет нашим алгоритмам действительно понимать значения в выбранном тексте.

Заключение

В этой статье мы кратко обсудили, почему наличие надлежащего контекста важно в процессе извлечения знаний с использованием обработки естественного языка, и предоставили обзор подхода Parabole и текущего прогресса.

Предоставлено: Мэри Исхак и Рохит Хандекар

Спасибо за чтение!

Если вы нашли эту статью полезной, отправьте нам свой отзыв или узнайте больше,

посетите www.parabole.ai или напишите на [email protected]