Пары сущностей, отношения и анализ зависимостей

Вступление..

Количество данных в этом мире постоянно увеличивается, поэтому они усложняются. Все больше ощущается потребность в методах извлечения ценности из этих сложных данных. Объем текстовых данных огромен, и значимая информация должна быть получена, чтобы создать ценность для бизнеса.

Графы знаний решают проблему согласования данных и придают им структуру для извлечения информации из данных. Все данные, источники данных и базы данных любого типа могут быть представлены и реализованы в виде графа знаний. Разными компаниями были разработаны различные типы графов знаний, которые используются для разных целей.

В этом блоге мы обсудим важные концепции графа знаний, а также поймем, как он может служить важным инструментом в арсенале инженеров НЛП.

Что такое сеть знаний?

База знаний - это любой набор информации. Сеть знаний - это структурированная база знаний. Сети знаний хранят факты в виде отношений между различными объектами. Графы знаний в основном описывают сущности реального мира и их отношения, организованные в виде графа. Эти сущности и отношения представляют собой извлеченные знания, которые организованы в графические структуры. Многие графы знаний в настоящее время представляют извлеченные факты в форме троек субъект-предикат-объект (SPO), что соответствует стандарту, предписанному RDF (Resource Description Framework).

Графы знаний становятся все популярнее на предприятиях, которые ищут более эффективные способы связать точки между миром данных и миром бизнеса. В сочетании с дополнительными технологиями искусственного интеллекта, такими как машинное обучение и обработка естественного языка, графы знаний открывают новые возможности для использования данных и быстро становятся фундаментальным компонентом современных систем данных ». - Джойс Уэллс

Давайте быстро рассмотрим пример, чтобы понять, как информация или знания встроены в эти графики.

Microsoft возглавляет Билл Гейтс, а Microsoft производит компьютерное программное обеспечение.

Давайте посмотрим, как эта информация встроена в графы знаний. Слова «Microsoft», «Билл Гейтс» и «компьютерное программное обеспечение» являются юридическими лицами. Сущности представлены в виде узлов, а отношения - в виде ребер в структуре графа.

В приведенном выше примере {«Microsoft», «Билл Гейтс»} - это пара сущностей, а {«Автор заголовка»} - это отношение.

Извлечение знаний

Давайте посмотрим, как создать хороший граф знаний из текстовой информации. Извлечение сущностей и отношений из текста - ключевая задача. Извлечение пар сущностей из грамматических шаблонов должно быть быстрым и масштабируемым до больших объемов текста. Для этой ключевой задачи используются популярные методы обработки естественного языка (NLP), такие как анализ зависимостей. Графики знаний могут быть созданы автоматически из текста с помощью части речи и анализа зависимостей.

Разбор зависимостей

Синтаксический анализ - это задача обработки естественного языка, заключающаяся в определении синтаксических отношений слов в предложении с учетом грамматических правил языка. Один из способов - связать отдельные слова вместе на основе их отношения зависимости. Это известно как синтаксический анализ грамматики зависимостей, который отображает предложение в дерево синтаксического анализа зависимостей.

Обратите внимание, что ссылки являются направленными между двумя словами в дереве синтаксического анализа зависимостей, указывая от главного слова к зависимому слову, чтобы передать связь. Алгоритмы синтаксического анализа пытаются найти наиболее вероятный вывод из его грамматических правил.

Из приведенного выше примера существительные и имена собственные «котелок» и «день» будут нашими объектами. Далее нам нужно будет извлечь отношение. Для этого мы должны найти КОРЕНЬ предложения, который также является глаголом предложения. В приведенном выше примере отношение будет «предпочитать».

Построение сети знаний

Для построения графа знаний самое важное - это узлы и грани между ними. Мы будем кормить много текстовых данных, чтобы узнать пары сущностей и отношения. Эти графики знаний будут использоваться для извлечения различных идей из текстовых данных.

Предыдущая: НЛП От нуля к единице: BERT (Часть 14/40)

Далее: TBD ..