Тенденции развития сети корпоративных знаний на 2021 год

Это мой третий ежегодный пост о тенденциях в области Enterprise Knowledge Graph (EKG). Вы также можете найти мои сообщения 2019 и 2020 в этом блоге, и я думаю, вы найдете несколько последовательных шаблонов в этих трех сообщениях.

База данных Graph продолжает расти в популярности

Интерес к ЭКГ продолжает расти. Из приведенной ниже диаграммы изменения популярности DB-Engines видно, что графические базы данных по-прежнему значительно опережают рост интереса ко всем другим типам баз данных.

В таксономии DB-Engine линии трендов СУБД Graph не включают хранилища RDF, которые отслеживаются отдельно. RDF-хранилища (тройные хранилища) не испытывают такого же роста интереса, как индустрия графовых баз данных.

Меня порадовало то, что графические базы данных продолжают широко использоваться в качестве альтернативы традиционным реляционным базам данных. Как и я, другие старшие архитекторы решений считают, что реляционные базы данных хорошо себя зарекомендовали, но больше не дают организациям конкурентного преимущества на рынке. В крупных организациях существует достаточно убедительных примеров реальной экономии затрат, так что ЭКГ теперь преодолевают пропасть, чтобы их могли использовать не только новаторы и первые последователи, но и клиенты, которые в большинстве своем покупают на основе справок о документально подтвержденных затратах. экономия и повышенная маневренность.

Наряду с ростом графических баз данных мы также наблюдаем рост термина «Корпоративная сеть знаний», когда многие авторы и организации взвешивают, как они определяют ЭКГ. Поскольку мой опыт работы с горизонтально масштабируемыми архитектурами NoSQL, вы можете догадаться, что я несколько пристрастен в этой области. Все мои определения того, что определяет ЭКГ, сосредоточены вокруг масштабируемости графовых баз данных. Таким образом, если ваша графическая база данных не может масштабироваться для удовлетворения корпоративных потребностей компании из списка Fortune-500, у вас действительно нет ЭКГ. Мы должны называть эти системы «графами проектных знаний» или «ведомственными графами знаний». Итак, вот мое рабочее определение настоящей ЭКГ:

Корпоративная сеть знаний (ЭКГ) - это тип графической базы данных, предназначенный для горизонтального масштабирования в соответствии с жесткими требованиями крупных организаций к хранению различных форм связанных знаний.

Обратите внимание, что в этом определении нет требований о том, что любые компоненты Семантический веб-стек должны использоваться для квалификации как ЭКГ. Мы все еще можем использовать фразу семантические графы знаний для этих систем. Однако в моей книге, если система не может соответствовать большинству из шести ключевых критериев горизонтального масштабирования, например, способности автоматически перебалансировать кластер, я не классифицирую их как истинные ЭКГ.

Слова важны, и я снова обращусь к этим определениям в будущих блогах и дам точные определения термина горизонтальное масштабирование для людей, которые не знакомы с этой концепцией. Наша книга Осмысление NoSQL (в соавторстве с Энн Келли) - хорошая отправная точка, если вы не знакомы с такими терминами, как автоматическое сегментирование и автоматическая ребалансировка кластера графа по мере его роста.

Первый общедоступный рабочий проект GQL

В 2021 году мы увидим первый общедоступный рабочий проект нового стандарта GQL для запросов к помеченным графам свойств. Я встречался почти каждые две недели с более чем 30 людьми, работающими над этим стандартом. Приятно видеть, как этот документ обретает форму.

Хотя я не являюсь экспертом по стандартам языка запросов, меня постоянно впечатляет невероятный опыт и самоотверженность комитета по стандартам GQL. У этих бесплатных волонтеров есть общее видение того, как GQL может преобразовать индустрию баз данных. Я вновь с уважением отношусь к уровню детализации, который проходит эта группа для создания нового стандарта, который мог бы объединить очень фрагментированное сообщество графов. Я надеюсь, что стандарт GQL объединяет лучшее из того, что мы узнали от SPARQL, Cypher, Gremlin и GSQL, в новый стандарт, который позволяет нам выражать сложные графовые запросы и алгоритмы графов способами, которые делают их в 10–100 раз более доступными, чем то, что они сегодня.

Получение стандартного языка запросов графов ISO, который поддерживает маркированные графы свойств (LPG), является одной из ключевых точек запуска, которые ускорят внедрение ЭКГ. ИТ-директора будут уверены, что их логика и алгоритмы на стороне сервера будут переносимы на несколько внутренних баз данных. Сторонние разработчики программного обеспечения выйдут на рынок и предоставят готовые решения для проблем корпоративного класса, которые более рентабельны, чем старые реляционные модели, и гораздо более масштабируемы.

Вы можете увидеть меня и группу экспертов GQL, обсуждающих эту тему на панели GQL на Graph + AI World Conference.

Появление полностью настраиваемого кремниевого оборудования с графической настройкой

В связи с повышенным вниманием, которое уделяется графовым базам данных, мы также начинаем видеть инновации на уровне оборудования. В течение последних 1,5 лет я предсказывал рост аппаратного графа, построенного на основе ЭКГ. Потребность в оборудовании для настраиваемых графов становится очевидной, если вы понимаете, что большинство алгоритмов графов выполняют простое переключение указателей и не нуждаются в 90% инструкций в сегодняшнем оборудовании CISC. Используя набор инструкций RISC, настроенный для оптимизации работы с указателями, мы могли бы разместить в чипе в 10 раз больше ядер и получить 10-кратный прирост производительности при выполнении запросов.

Хотя инновационные компании, такие как Graphcore, создали инновационное специальное кремниевое оборудование, оптимизированное для обхода графов, их оборудование требует, чтобы мы переписали наши алгоритмы в низкоуровневом коде C. И, как вы можете догадаться, большинство предприятий хотят, чтобы их алгоритмы не зависели от конкретной аппаратной архитектуры. Помимо нескольких крупных организаций, в которых есть разработчики на C, разработчики графовых баз данных еще не получили широкого распространения оборудования для пользовательских графов.

Но в 2021 году, думаю, все начнет меняться.

Ключевой поворотный момент произошел в октябре 2020 года, когда Intel опубликовала свою знаменательную статью о своей новой аппаратной архитектуре PIUMA, специально разработанной для быстрого обхода графов. Большая часть этой работы была продиктована проектом DARPA HIVE. Мы все должны ценить новаторскую работу команды DARPA и их готовность позволить коммерческим организациям извлекать выгоду из своих исследований. Я много писал о фантастической работе, проделанной Intel, чтобы глубоко понять потребность в наборе команд RISC и необходимость радикального изменения подсистем памяти, чтобы обеспечить поток данных в ядра RISC.

Модернизация оборудования памяти была одной из ключевых идей Cray и DataVortex много лет назад. Тем не менее, он был доступен только в специально созданных высокопроизводительных суперкомпьютерных системах по невероятной цене. Архитектура PIUMA может обеспечить дополнительное ускорение в 10–100 раз для некоторых графических алгоритмов помимо 10-кратного ускорения ядра. Я искренне надеюсь, что оборудование Intel PIUMA может быть намного доступнее, чем Cray Graph Engine.

Если вам интересно узнать больше, я стал одним из участников презентации невероятного Нихила Дешпанде из команды Intel PIUMA на конференции Graph + AI World.

Машинное обучение в графах

В 2020 году ни одна тема не занимала меня больше, чем роль машинного обучения в графических базах данных. Хотя их еще нет, в ближайшие несколько лет графические базы данных LPG будут иметь свой собственный AlexNet момент в сообществе ИИ.

Для тех, кто не следил за ИИ, AlexNet был одним из первых алгоритмов, использующих параллельную обработку и графические процессоры для обучения глубоких нейронных сетей классификации изображений. На конкурсе по распознаванию изображений в 2012 году AlexNet показал невероятно низкий уровень ошибок на 10,8 процентных пункта по сравнению с конкурентами. Когда ежегодное улучшение на 1-2 пункта было нормой, вы можете видеть, что это ошеломило сообщество ИИ и вне всяких сомнений доказало, что глубокие нейронные сети имеют много преимуществ перед традиционными алгоритмами машинного обучения.

Было такое же стремление использовать глубокие нейронные сети для создания прогнозов на основе данных в графовых базах данных. В декабре на NeurIPS 2020, одной из крупнейших в мире конференций по ИИ, более 136 статей содержали слово« граф в своих названиях». Во многих других статьях обсуждалось, как знания из разных областей могут быть проанализированы с использованием графических представлений знаний. В 2021 году мы ожидаем увидеть продолжение инноваций, сочетающих машинное обучение с хранимыми данными ЭКГ.

Вложения везде

Одна из главных задач глубокого обучения - помочь нам классифицировать элементы и найти представления, которые можно использовать для быстрой обработки в реальном времени, например для поиска похожих элементов. В прошлом году я упоминал, что алгоритмы подобия являются одними из самых важных алгоритмов для ЭКГ. Сходство лежит в основе рекомендательных систем. Хотя существует множество различных графических алгоритмов для поиска похожих элементов на графе, наиболее распространенным является алгоритм, называемый Косинусное сходство. Хотя существует множество ручных способов найти ключевые функции для построения моделей машинного обучения, эти методы медленные и требуют постоянной настройки весов каждой функции.

Что происходит, так это то, что мы начинаем использовать полученные знания в области обработки естественного языка (NLP), науки о данных и машинного обучения, чтобы помочь нам автоматически находить встраивание для сложных структур графов знаний LPG.

По сути, мы говорим запросу «случайным образом обойти» каждую вершину и определить, что делает эту вершину уникальной. Точно так же, как НЛП научилось строить встраивание слов из немаркированного текста, мы используем алгоритмы случайного блуждания для построения предложений, описывающих вершину.

Чтобы узнать больше, в ноябре 2020 года я написал подробный блог Понимание вложения графов.

Когда у нас есть эти вложения, мы можем использовать специальное оборудование Программируемые пользователем вентильные массивы (FPGA), чтобы быстро находить похожие элементы, используя эффективные методы параллельной обработки. Учитывая высококачественные вложения, созданные с помощью машинного обучения, типичная ПЛИС может найти 100 наиболее похожих элементов в наборе из 10 миллионов элементов менее чем за 50 миллисекунд! Вы можете узнать больше об использовании ПЛИС для поиска похожих элементов в ЭКГ из моего выступления с фантастическим Кумаром Дипаком из Xilinx на Graph + AI World Conference.

Использование FPGA для быстрого поиска сотен похожих элементов среди миллионов за 1/20 секунды - это не просто разовая уловка. ПЛИС - универсальные инструменты для выполнения множества параллельных вычислений в графах. Каждый, кто создает ЭКГ, должен хорошо понимать, когда алгоритмы являются последовательными, а когда их можно выполнять параллельно. Вопрос «Можем ли мы ускорить это с помощью FPGA» должен быть в центре внимания, когда требуются графические запросы в реальном времени. Я напишу больше о том, как ПЛИС используются в графиках в 2021 году.

Контроль доступа на уровне вершин на основе ролей

Одной из определяющих особенностей графов корпоративных знаний является их способность предоставлять многим разработчикам (от сотен до тысяч одновременно работающих разработчиков) прямой доступ на уровне запросов к базе данных графов. Проблема со многими другими технологиями, такими как Data Lakes, заключается в том, что они не обеспечивают точного доступа к отдельным вершинам и ребрам. В 2020 году мы стали свидетелями первого внедрения правил ролевого контроля доступа (RBAC) на уровне вершин поставщиками корпоративных графов.

Это означает, что нам больше не нужно ограничивать доступ к базе данных графов только сертифицированными запросами приложений. Использование только сертифицированных запросов приложений было способом обеспечить контроль доступа к конфиденциальным данным в корпоративном графе на уровне приложений. Однако это ограничило целый класс пользователей, которые хотели использовать наши ЭКГ для специального обнаружения данных. Discovery позволил сэкономить средства на внедрении ЭКГ.

Добавление функции RBAC на уровне вершин имеет решающее значение для продолжающегося роста индустрии ЭКГ. Многие проекты EKG были отложены, потому что они не предлагали RBAC, обычно доступный в системах РСУБД, хотя и на уровне строк таблицы, а не на уровне вершин графа. Теперь, когда эта функция доступна в коммерческих базах данных графов, она поднимает входной барьер для других запусков баз данных графов. RBAC на уровне вершин сложно реализовать в масштабе без значительного падения производительности.

Рост числа компаний, занимающихся облачными технологиями и сжиженным нефтяным газом, сокращение числа компаний, производящих продукты для семантической паутины

Хотя 2020 год был знаменательным для многих графических компаний, он, к сожалению, не был удачным для всех.

Крупные облачные провайдеры продолжали продвигать свои продукты на основе графов. Хотя многие поставщики облачных услуг ограничены в использовании Gremlin для проектов масштаба предприятия, они продолжают продвигаться вперед, создавая более мелкие проекты и графики на уровне отделов. Эти небольшие проекты по-прежнему могут быть хорошей тренировочной площадкой для организаций, чтобы испытать мощь и гибкость графовых баз данных и развить у своих сотрудников навыки графических запросов. По сути, это тренировочные лагеря для команд, создающих ЭКГ в ближайшие несколько лет.

Примерно в середине года мы узнали об увольнениях и сокращении штатов в некоторых компаниях, которые по-прежнему ориентированы на более старые стеки семантической паутины. Хотя эти продукты по-прежнему полезны для управления небольшими глоссариями, словарями, таксономиями и онтологиями, я думаю, что пандемия COVID сильно ударила по ним. Это тоже зрелое место, и здесь много конкурентов. К счастью, я уже знаю, что несколько человек, уволенных из этих фирм, занялись другими проектами, связанными с графами, и желаю им удачи. Держитесь, все! 2021 год будет намного лучше!

Обработка естественного языка (NLP) и ЭКГ

Из всех областей, тесно связанных с ЭКГ, наибольшее волнение вызвало НЛП. Это строилось с тех пор, как в октябре 2018 года была опубликована статья BERT. BERT создал AlexNet Moment для НЛП в 2018 году, и с момента публикации статьи BERT были десятки связанных проектов, в которых используется обучение без учителя и модели преобразователей. был опубликован.

Шумиха вокруг революции в НЛП и ИИ начала почти выходить из-под контроля с объявлением OpenAI GPT-3 в июне 2020 года. Это было своего рода хвастовство OpenAI, чтобы показать, как этот язык модели могут масштабироваться до уровня параметров 175B при затратах примерно 10 миллионов долларов на обучение моделей. Изображение на рисунке выше показывает, на мой взгляд, впечатляющий пример того, как работает GPT-3. Я даю подсказку самой большой модели GPT-3 Davinci:

“The reason that enterprise knowledge graphs will continue to grow in popularity is because”

и он дал довольно впечатляющий ответ из 200 слов и стоил около копейки.

Такие инструменты, как BERT и GPT, постепенно станут «мостом», соединяющим мир документов и текста с миром ЭКГ. Сервисы NLP, построенные на BERT и GPT, будут экономически эффективно поглощать миллионы документов и возвращать точно закодированные концептуальные графы для каждого документа, связывающие документы, которые оба обсуждают одну и ту же концепцию на материализованной и запрашиваемой границе между концептуальными графами для каждого документа.

Почему это важно? Сегодня 80% «знаний» в крупных компаниях связано с такими документами, как веб-страницы MS-Word, PDF, FAX и HTML. Мы знаем, что ЭКГ могут быть полезны для интеграции этих документов, если мы сможем извлечь точные факты из документов. Затем мы можем закодировать и связать эти факты как вершины в нашем графе знаний. Как только факты извлечены и связаны, мы можем использовать возможности машинного обучения графов для вычисления встраивания и быстрого поиска похожих документов и похожих концепций, комбинируя как детерминированные правила, так и встраивания. Эта возможность продолжит расширять масштабы проектов ЭКГ и подтолкнет потребность в более экономичном оборудовании ЭКГ.

Виртуальные конференции и сообщества ЭКГ

Несмотря на полное закрытие большинства очных конференций, связанных с графами, многие виртуальные конференции действительно прошли с увеличением посещаемости растущей мировой аудиторией, интересующейся темами ЭКГ.

Самой большой новой конференцией стала конференция Graph + AI World, которая объединила не только тематические исследования по развертыванию графов знаний на крупных предприятиях. Тем не менее, здесь также было несколько групповых дискуссий экспертов по темам, связанным с ЭКГ. Для меня это была лучшая конференция года, которая объединила сессии по ЭКГ, смешанные с акцентом на стандарты GQL, машинное обучение и технологии НЛП.

Я также был рад видеть, что конференция Knowledge Connections успешно перешла в полностью виртуальный формат и провела много интересных презентаций о графах знаний.

Книги ЭКГ, модели зрелости ЭКГ, блоги ЭКГ и многое другое!

Я думаю, что 2021 год станет еще одним годом быстрого роста для ЭКГ, продолжая добавлять инновации, которые позволят запускать новые продукты до 2022 года. Сочетание языка GQL, пользовательского оборудования ЭКГ, графического машинного обучения, НЛП и растущей библиотеки блогов, кейс исследования, книги и более масштабируемое и надежное программное обеспечение ЭКГ, адаптированное к потребностям крупных организаций, будет продолжать преобразовывать отрасль баз данных.

Заключение: инвестируйте сейчас!

В прошлом году мы продолжали видеть, что корпоративные знания могут действовать как невидимая сила, которая согласованно связывает данные организации. Так же, как гравитация и магнетизм, связанные знания могут привлечь больше знаний в ЭКГ. Применяются сетевые эффекты. ЭКГ стимулировали инновации, новые идеи и явную экономию средств для организаций, которые их внедрили.

Если вы думаете о создании новой компании, которая использует возможности ЭКГ, я думаю, что 2021 год будет идеальным годом для запуска вашей компании. Если вы венчурный инвестор или бизнес-ангел, вам следует искать небольшие стартапы в графическом пространстве, сочетающие ML, NLP с технологиями EKG. Эти фирмы будут быстро развиваться вокруг новых стандартов GQL и аппаратного ускорения графов в 1000 раз, которое мы увидим в 2021 году и позже.

Всех с Новым годом!