[Скачать презентацию в формате PDF здесь]

Ключевые приложения Knowledge Graph:

  • Ускорьте машинное обучение, выступая в качестве более согласованного хранилища функций с высококачественными данными.
  • Включите семантический поиск, который улучшит как внешний клиентский опыт (поиск нужных элементов/персонализация), так и внутренний клиентский опыт (поиск нужных данных в нужном формате).

Онлайн покупки

Когда началась пандемия, многие из нас отчаянно обратились к онлайн-заказу через службы доставки продуктов, такие как Instacart. В связи с карантинными процедурами, увеличением количества вариантов COVID-19 и продолжающимися случаями эти услуги теперь почти необходимы в нашей повседневной жизни.

Учитывая этот беспрецедентный спрос, таким компаниям, как Instacart, пришлось быстро адаптироваться; однако эта скорость масштабирования сопряжена со своими проблемами.

Например, вы когда-нибудь заказывали четыре отдельных яблока, а вместо этого получали четыре пакета? Или искали свои любимые веганские продукты, но не смогли их найти, хотя знали, что они есть в наличии?

Чтобы решить эти проблемы, Instacart обратилась к графам знаний, чтобы сделать две вещи, которые улучшат качество обслуживания клиентов:

  1. Стандартизируйте обучающие данные по машинному обучению
  2. Улучшить функциональность поиска

Но неизбежно, как и в случае любого крупномасштабного графа знаний, для раскрытия этих возможностей необходимо было решить проблемы с данными.

Обнаружение шума в графах знаний

Возможность и вызов

В то время граф знаний Instacart был относительно новым и содержал около 70 миллионов фактов, связанных с бакалейными товарами и связанными с ними атрибутами. Хотя команда осознала преимущества стандартизации обучающих данных машинного обучения и улучшения поиска, которые можно было бы открыть с помощью этого графа знаний, они столкнулись с проблемами качества данных, характерными для крупномасштабных графов знаний.

В частности, крупномасштабные графы знаний включают множество конвейеров обработки данных извлечения-преобразования-загрузки (ETL) и автоматизированных процессов для сбора и очистки исходных данных, которые могут поступать из Википедии, общедоступной сети или многих каталогов магазинов, на которые опирается Instacart. . Проблемы с качеством данных обязательно возникнут, и неправильные данные могут в конечном итоге заполнить граф знаний.

Например, в примере Instacart аналогичные продукты для батончиков мюсли в разных магазинах могут содержаться в четырех разных коробках с несколькими способами возврата количества (например, батончики, граммы и т. д.). Создатели графа знаний в этом сценарии зависят от каталогов магазина — и не обязательно есть один правильный или неправильный ответ. На самом деле, вся точная информация, связанная с продуктом, ценна в правильном контексте.

На самом деле разным людям нужна единица измерения в разных значениях для разных целей:

  • Клиент хочет знать, какова самая дешевая стоимость слитка.
  • Инженер по машинному обучению, создающий алгоритмы поиска, хочет знать, каков размер партии для упаковки.
  • Эксперт по цепочке поставок хочет знать, каковы размеры одного поддона для оптимизации склада.

Чтобы поддерживать целостность данных о различных атрибутах продуктовых продуктов и обслуживать различных пользователей, команда Instacart попыталась начать с серии простых и объяснимых тестов, которые используют преимущества, присущие графам знаний.

Решение

Некоторые из реализованных решений, использующих преимущества графа знаний, включают:

1. Используйте семантическое значение строк. В этом случае строки могут включать бренд, тип продукта, название продукта и другие атрибуты, например «Малиновое европейское печенье». Каждый из этих элементов содержит определенное значение и отношение друг к другу, которые затем могут быть отображены в векторном пространстве. Это означает, что такие алгоритмы, как k-NN (ближайший сосед), могут применяться для определения близости связанных таксономий, как показано на изображении ниже:

2. Учет релевантной для бизнеса логики. Под этим мы подразумеваем логику, которая может быть получена из знаний предметной области, исторических тенденций, таких как сезонность, внешней информации или других источников. Некоторые могут назвать это «ограничениями целостности», и они могут различаться по сложности. На простейшем уровне примером может быть то, что мы знаем, что один грамм жира содержит девять калорий, поэтому любые значения, не соответствующие этому факту, будут помечены как ошибочные.

3. Объединение метаданных и разрозненных источников для проверки фактов. Одним из мощных атрибутов графа знаний является возможность связывать вместе не только множество фрагментов информации, но и интерпретировать метаданные или контекст. вокруг данных, а также. В этом сценарии Instacart извлекла информацию из каталогов магазинов, общедоступной сети и т. д., но также проанализировала вовлеченные метаданные, чтобы увидеть, есть ли согласованность между источниками, которые могут подтвердить качество данных. Например, мы могли бы видеть, когда информация о продукте обновляется для печенья в нескольких источниках, чтобы определить ее достоверность.

Заключение

Этот пример использования говорит о том, что Instacart все еще находится в начале пути графа знаний. Однако даже в его нынешнем состоянии использование графа знаний для всестороннего понимания продуктов служит мощной основой, открывающей новые возможности или преимущества:

  1. Маркетологи и бизнесмены могут использовать диаграмму знаний, чтобы быстро находить самые надежные данные, чтобы продвигать праздничную распродажу или кампанию и получать дополнительный доход.
  2. Можно быстрее разрабатывать более мощные алгоритмы для таких областей, как поиск, рекомендации и персонализация.
  3. Специалисты по обработке и анализу данных и инженеры по машинному обучению имеют согласованные и надежные данные для обучения в масштабе всей организации, и им не нужно искать 50 баз данных или перепроектировать функции.
  4. Руководители могут сэкономить на операционных расходах и времени, затрачиваемом на поиск недостоверной информации.

Если вам интересно узнать больше о технических деталях, ознакомьтесь со следующими рекомендациями докладчика:

О спикере

Томас Грабб — кандидат наук 5-го курса. Студент Калифорнийского университета в Сан-Диего с опытом работы в области математики и экономики. Работа Тома над графами знаний началась прошлым летом со стажировки в Instacart и продолжится этим летом стажировкой в ​​Coupang, где он сосредоточится на применении графов знаний для поиска и понимания запросов. Он надеется продолжить работу в этой области после окончания учебы.

Резюме. Построение больших диаграмм знаний часто зависит от автоматизированных методов «извлечение, преобразование, загрузка», которые позволяют включать шум из исходных данных в результирующий график. В этом докладе рассматриваются методы обнаружения ненадежных фактов в графе знаний в масштабе с целью предотвратить повреждение этого шума последующими приложениями графа.

О нас

Graph Thinking — это сообщество, миссия которого:

  1. Повышайте осведомленность сообщества о примерах использования бизнес- и отраслевых графов знаний
  2. Создавайте взаимодействия и связи, которые вдохновляют приложения графа знаний

Присоединяйтесь к группе встреч, управляемой Diffbot и RelationalAI, чтобы узнать, когда состоится наше следующее мероприятие, и подпишитесь на Knowledge Bytes, чтобы получать сводки и рецензии!