Представление сети знаний: GRAKN.AI или OWL?

Почему GRAKN.AI реализует собственный язык онтологий?

В этом сообщении блога мы более подробно рассмотрим несколько ключевых аспектов, которые отличают модель представления знаний, принятую платформой графа знаний GRAKN.AI, от популярных формализмов семантической паутины: RDF (S) и OWL. Фактически, мы отвечаем на часто задаваемый вопрос Почему GRAKN.AI реализует собственный язык онтологий вместо использования существующих стандартов W3C?

Этот пост предназначен для читателей, знакомых с понятием формальной семантики и опыта работы в моделировании онтологий, особенно с использованием RDF (S) и OWL. Мы хотим, чтобы вы получили как можно больше от нашего письма, и мы рады обсудить этот пост в разделе комментариев ниже или через наши каналы сообщества Slack. Пожалуйста, свяжитесь с нами!

Графики знаний: новый рубеж в представлении знаний

Возникающая парадигма организации и управления сложными, сильно взаимосвязанными данными в виде так называемых графов знаний представляет собой своеобразное сочетание проблем, связанных со знаниями и представлением данных [1]. Приложения на основе графов знаний должны эффективно работать с семантически богатыми, но хорошо структурированными и ограниченными данными графа. Хотя методы реляционного моделирования и графовые базы данных являются полезными инструментами для решения некоторых конкретных проблем, они не могут предложить исчерпывающую техническую и концептуальную инфраструктуру для всей задачи. Вместо этого многие обращаются к стандартам семантической паутины, с известным языком веб-онтологий (OWL), как к предполагаемой «серебряной пуле» в решении проблемы управления семантическим графом. Однако, каким бы мощным ни был стек семантической паутины в контексте публикации связанных данных в сети, его ценность в качестве решения для представления графа знаний для автономных приложений, ориентированных на конкретную предметную область, менее очевидна.

С помощью GRAKN.AI - нашей платформы графа знаний с открытым исходным кодом - мы объединяем концепции из нескольких парадигм знаний и представления данных, чтобы конкретно устранить то, что мы видим как недостаток. В этом посте мы рассмотрим основные мотивы и дизайнерские решения, стоящие за этими усилиями.

Представление знаний в семантической сети

Семантическая сеть Web (или Web 3.0, как ее иногда еще называют) - это инициатива W3C, начатая в конце 1990-х годов и направленная на расширение существующей архитектуры Интернета за счет уровня формальной семантики. Этот уровень предназначен для того, чтобы машины могли обмениваться и интерпретировать данные в глобальном масштабе интеллектуальным и значимым образом. Стек технологий W3C, представленный для достижения этой цели, состоит, среди прочего, из трех стандартов представления данных и знаний: RDF, RDFS и OWL. Кратко рассмотрим эти формализмы.

RDF

RDF (Resource Description Framework) - это модель данных на основе графов. Он представляет информацию в виде помеченного ориентированного мультиграфа с вершинами и помеченными ребрами (допускается несколько ребер с разными метками между одними и теми же узлами). Вершины состоят из IRI (представляющих абстрактные вещи), литералов (конкретных значений данных) и пустых узлов (фиктивных удобных узлов).

Граф RDF выражается как набор троек ‹субъект, предикат, объект›, каждая из которых интерпретируется как граница, помеченная предикатом, идущая от узла субъекта к узел объект. RDF сам по себе не поддерживает никакой семантики, кроме той, которая была перенесена из определений типов данных XML - это просто модель данных. SPARQL - это язык, предназначенный для запросов к RDF-графам, который изначально реализован тройными хранилищами, то есть базами данных, разработанными специально для хранения и управления RDF-данными. Проект Wikidata предлагает яркий пример предоставления данных RDF через живую конечную точку SPARQL, запускаемую поверх тройного хранилища.

RDFS

RDFS (Схема RDF) расширяет RDF с помощью самых основных онтологических ограничений и семантики: подтипов классов и свойств, а также диапазона свойств и ограничений домена. Эти конструкции позволяют строить очень простые иерархии типов над данными RDF, которые также представлены в графах RDF. Благодаря этой простоте эффективный механизм рассуждений по RDFS может быть полностью захвачен SPARQL (через пути к свойствам), что не требует дополнительных, дорогостоящих в вычислительном отношении инструментов вывода.

СОВА

OWL (язык веб-онтологий) - это семейство языков онтологий, основанных на логике описания, каждый из которых отличается своей выразительностью и вычислительной сложностью. OWL добавляет множество онтологических конструкций поверх тех, что были введены в RDFS. Онтологии OWL также могут быть представлены в графах RDF, но для любого значимого использования их предполагаемой семантики в прототипных сценариях вариантов использования необходимы специализированные инструменты: механизмы рассуждений (OWL DL, EL), механизмы правил (OWL RL) и запросы. системы перезаписи (OWL QL).

OWL принимает так называемое допущение открытого мира (OWA), в отличие от допущения закрытого мира (CWA), характерное для систем реляционных баз данных, что означает, что недостаток информации не интерпретируется как ложная информация. Например, ограничение OWL «У каждого родителя должен быть хотя бы один дочерний элемент» согласуется с набором данных, содержащим единственный факт «Джон является родителем», без каких-либо упоминаний о Дети Джона. Никакое упоминание о детях не подразумевает никаких детей; напротив, если специально не указано иное, мы можем с уверенностью предположить, что у Джона есть ребенок, даже если мы не знаем об этом. Эта философия естественным образом подходит для открытой веб-среды, где неполнота информации может считаться само собой разумеющимся.

Поскольку принятие стандартов RDF (S) для публикации данных в сети в последние годы заметно расширилось, использование OWL оказалось на удивление ограниченным [2], [3]. Это верно как в отношении количества приложений, для которых он эффективно использовался, так и в отношении количества конкретных онтологических конструкций, которые когда-либо применялись на практике. Одним из немногих примеров является Ordnance Survey, национальное картографическое агентство Великобритании, которое использует выразительные онтологии OWL для структурирования географических и административных данных. Некоторые из общепризнанных причин этого явления - это как раз те, которые побудили нашу компанию продолжать поиск более подходящего решения для представления знаний, как объясняется в следующей части.

Почему GRAKN.AI вместо OWL?

Grakn построен на основе Apache TinkerPop, который представляет собой интерфейс с открытым исходным кодом, предлагающий единообразный доступ к данным, хранящимся в любой базе данных с поддержкой TinkerPop. У этой архитектуры есть два непосредственных преимущества:

  • Grakn остается в значительной степени независимым от хранилища и может работать поверх таких графовых баз данных и тройных хранилищ, как Titan, OrientDB, Blazegraph, StarDog и других, которые реализуют интерфейс TinkerPop;
  • Базовая структура данных Grakn - это помеченный гиперграф. Это, в свою очередь, дополнительно отображается на помеченный ориентированный граф - модель, предоставляемую TinkerPop, независимо от фактического хранилища данных.

Помеченные направленные мультиграфы также являются структурами, лежащими в основе модели данных RDF, поэтому относительно просто разработать сопоставление между RDF и гиперграфами. Однако реальная разница проявляется на уровне онтологии, где Grakn предоставляет модель знаний более высокого уровня, позволяя разработчикам представлять свою область приложения в терминах сущностей, ресурсов, отношений и ролей , в отличие от отдельных, литералов, свойств и классов OWL.

Вот четыре основные причины, по которым мы считаем, что онтологии Grakn лучше подходят для моделирования графов знаний в контексте автономных приложений, чем OWL:

1) Grakn сочетает в себе предположение об открытом и закрытом мире

Принимая OWA, OWL значительно усложняет проверку согласованности данных и обеспечение их правильной структуры. И это то, что обычно требуется приложениям с графами знаний в том же смысле, в каком реляционные базы данных требуют строгих схем, чтобы гарантировать качество своих данных.

В Grakn мы тщательно комбинируем оба стиля рассуждений, взяв лучшее из двух миров: онтологический вывод открытого мира и проверка ограничений закрытого мира, подобная схемам. Давний антагонизм между «онтологическим» моделированием открытого мира и моделированием «схемы» закрытого мира проистекает, на наш взгляд, не в основном из формальной несовместимости этих двух подходов. Скорее, это коренится в крайних философских взглядах на прототипные сценарии приложений, для которых они идеально подходят: открытая гетерогенная сеть данных против закрытых, тщательно отобранных хранилищ данных с единым просмотром. Поскольку мы фокусируемся на больших графах знаний, относящихся к конкретной предметной области, мы находим оба конца этого спектра слишком ограничивающими и видим естественную потребность в одобрении смешанного, но все же сбалансированного решения.

2) Профили OWL имеют неудовлетворительный баланс выразительности и сложности

Ни один из стандартизованных профилей OWL напрямую не соответствует типичным требованиям схемы / онтологии для приложений с графами знаний. В большинстве случаев графы знаний требуют выражения разнообразных шаблонов ограничений для отношений (ребер) в графе, которые доступны только в некоторой степени в OWL DL, то есть в самом сложном из разрешимых профилей OWL. В то же время существует небольшая потребность в очень сложных описаниях классов, включающих логические операторы, которые широко поддерживаются этим профилем, при этом выразительность облегченных OWL QL, OWL RL или даже RDFS достаточна в этом отношении.

Теоретически архитектура OWL предполагает использование произвольных фрагментов (по мере необходимости для каждого варианта использования). Однако на практике «выбор вишенки» затруднен из-за природы доступных инструментов рассуждений, которые в любом случае должны включать дорогостоящие вычислительные методы для учета всех соответствующих профилей OWL. Чтобы урезонить два простых ограничения: «У каждого родителя есть ребенок» и «Каждый ребенок - личность», необходимо задействовать полноценного логика OWL DL - a инструмент, который в среднем плохо масштабируется с большими данными. Это обычно подталкивает практиков семантической паутины к единственному использованию RDF (S), который сам по себе слишком упрощен как язык онтологий / схем.

3) GRAKN.AI предназначен для графических данных

Даже в своей полной выразительности OWL не идеально подходит для работы со сложными структурами графов. Его формальные основы (логика с так называемым свойством древовидной модели), определяемые в значительной степени вычислительными ограничениями (преимущественно разрешимостью), фактически делают его гораздо более естественным языком для управления данными в форме дерева. Следовательно, все накладные расходы на сложность / выразительность, которые необходимо принять для работы с OWL для начала, не возвращают значение в контексте графов знаний.

4) OWL имеет высокий порог входа для нелогиков

Поскольку дизайн OWL был основан в основном на исследованиях логики описания, порог входа для нелогиков (в смысле способности понимать язык и достигать намеченного поведения систем, поддерживаемых OWL) является значительным. Это еще одна причина, по которой многие разработчики предпочли придерживаться RDF (S).

Гарантируя, что формализм представления знаний Grakn остается легким и строится снизу вверх, следуя опыту и потребностям разработчиков, мы надеемся предоставить больше семантических возможностей гораздо большей аудитории, чем у OWL.

Приняв решение использовать новый формализм онтологии, лежащий в основе семантической паутины, Grakn пришлось соответственно оснастить новым специализированным языком запросов Graql, который предназначен для обеспечения оптимального доступа к информации, представленной в графах знаний Grakn. Мы обсудим формальные свойства Graql более подробно в следующих статьях.

Разработка практического, но хорошо обоснованного формализма представления знаний - далеко не простая задача, и она требует тщательного рассмотрения множества вопросов, включая формальные, инженерные и технологические аспекты. Есть много компромиссов и трудных компромиссов, которые необходимо сделать, прежде чем удовлетворительная и стабильная спецификация наконец появится. В то время как работа в этом направлении в Grakn Labs непрерывно продвигается, мы приглашаем вас ознакомиться с нашей документацией и оставить свой отзыв.

[1] Л. Эрлингер, В. Вёсс: К определению графов знаний, SEMANTiCS 2016.

[2] Б. Глимм, А. Хоган, М. Крётч, А. Поллерес: « OWL: Еще не появилось в сети данных? », Linked Data on the Web Workshop (LDOW) 2012.

[3] Дж. Хендлер: За пределами OWL: проблемы для онтологий в Интернете, OWL: Семинар по опыту и направлениям (OWLED) 2015 .

Выражаем благодарность моим коллегам-редакторам Николасу Д., Джо Стичбери, Хайкалу Прибади, Бориславу Иорданову и Precy Kwan за их вклад.