Шаблон наблюдения сетки данных помогает нам понять состояние нашей сетки данных, движение ее данных и шаблоны ее использования. Вот как работает этот шаблон и почему он имеет решающее значение для успеха вашей корпоративной сетки данных.

Шаблон наблюдаемости сетки данных

Data Mesh обещает радикально повысить производительность специалистов по данным. Но он, скорее всего, не оправдает этих высоких ожиданий, если у нас не будет гораздо лучшего, более детального и более реального понимания состояния нашей сетки данных, того, как данные перемещаются в ней, кто их использует и как они используют его.

Шаблон наблюдения сетки данных решает эту проблему. Во-первых, этот шаблон фиксирует «события наблюдения» — изменения данных, перемещение данных, запросы на доступ и другие полезные события в продукте данных, а также между продуктами данных в корпоративной сетке данных.

Во-вторых, он предоставляет метрики и информацию об использовании специалистам по данным, бизнес-пользователям, разработчикам и специалистам по управлению для повышения производительности и оптимизации операций Data Mesh.

В-третьих, он передает события наблюдаемости заинтересованным наблюдателям, таким как корпоративные консоли, для повышения отказоустойчивости, стабильности и эффективности Data Mesh.

В-четвертых, он сопоставляет наблюдаемые события с «трассировками данных» по мере того, как данные перемещаются в продуктах данных и по корпоративной сетке данных. Эти трассировки данных обеспечивают уникальный способ группировки дискретных и асинхронных событий для получения полной и единой картины развития и миграции данных.

В этой статье я рассмотрю, как работает этот шаблон, и конкретно обсужу, как захватываются необработанные данные, как они преобразуются в полезные «события наблюдения» и как эти события наблюдения используются специалистами по данным.

Для заинтересованных читателей полный набор решений, ускорителей и базовых шаблонов доступен во вводных статьях здесь и здесь.

В этой статье предполагается, что вы хорошо разбираетесь в Data Mesh. Если вам нужна какая-то справочная информация о Data Mesh, есть ряд замечательных статей, доступных здесь (шаблоны), здесь (архитектура), здесь (принципы) и здесь (извлеченные уроки).

Резюме шаблона

Шаблон наблюдения за сеткой данных фиксирует и делает видимыми состояние сетки данных, изменения данных в сетке данных, перемещение данных внутри продукта данных в сетке данных и между ними, а также запросы на доступ к сетке данных. Он моделирует эти данные как события наблюдаемости, которые сгруппированы в «трассировки данных» и объединены для удовлетворения потребностей различных потребителей.

Шаблон наблюдения сетки данных используется различными потребителями:

  • Разработчики используют события наблюдения и трассировки данных для отладки и оптимизации приложений.
  • Исследователи данных используют трассировку данных, чтобы понять движение данных в инженерных конвейерах.
  • Специалисты по управлению используют события наблюдаемости и трассировки данных, чтобы понять закономерности использования данных.
  • Операционный персонал использует события наблюдения, чтобы обеспечить безопасную, производительную и отказоустойчивую работу корпоративной сетки данных.

Контекст и бизнес-проблема

Хотя технологии позволили значительно улучшить аналитику и ИИ/машинное обучение, специалистам по данным не хватает базовой информации о своих данных:

  • Какие данные у меня есть и как они выглядят?
  • Что изменилось в моих данных, когда это произошло и кто их изменил?
  • Можно ли отслеживать данные по мере их перемещения внутри продукта данных и между продуктами данных в корпоративной сетке данных?
  • Что говорят шаблоны использования данных об отношениях между данными?

И дополнительные вопросы возникают с точки зрения управления и руководства:

  • Кто получает доступ к моим данным и как используются мои информационные продукты?
  • Доступны ли тенденции и показатели для оптимизации моих операций с сеткой данных?

Шаблон наблюдения сетки данных решает все эти проблемы.

Решение

Шаблон наблюдаемости сетки данных захватывает, фильтрует, объединяет и обеспечивает видимость событий наблюдаемости по нескольким параметрам:

  • События изменения продукта данных, которые описывают, как продукт данных развивается в течение срока его службы, фиксируются с помощью шаблона сбора данных об изменениях.
  • Запросы на доступ к продукту данных, которые описывают, как потребляется продукт данных, перехватываются и преобразуются в события наблюдаемости.
  • Шаблоны и тенденции использования объединяются из необработанных запросов на доступ к продуктам, чтобы дать представление о том, как и кем используются информационные продукты.
  • Форматы продуктов данных, права собственности и безопасность также распространяются на этот шаблон.

С помощью этого шаблона доступны несколько форм данных:

  • Необработанные данные и события, которые могут быть полезны для понимания конкретных моделей использования и устранения операционных проблем.
  • События наблюдаемости, которые обеспечивают нормализованное представление всех событий, что упрощает их поиск, сортировку, фильтрацию и использование.
  • Трассировки данных, которые группируют связанные события наблюдаемости, чтобы понять движение и эволюцию данных.
  • Агрегированные данные, которые суммируют и фильтруют события для предоставления сводных и управленческих представлений о состоянии и операциях сетки данных.

Итак, давайте теперь вернемся к проблемам и вопросам, поставленным ранее, и посмотрим, как шаблон наблюдения сетки данных решает их:

  • Какие данные у меня есть и как они выглядят? Наблюдение за сеткой данных отображает метаданные о состоянии продукта данных, включая такие сведения, как имена баз данных, таблицы в них, формат столбцов; Эти данные доступны в каталогах продуктов данных.
  • Что изменилось в моих данных, когда это произошло и кто это изменил? Шаблон наблюдения сетки данных фиксирует изменения в данных, когда они произошли и кто их изменил. Это делает эти данные доступными через каталог продуктов данных как в необработанной, так и в агрегированной форме.
  • Можно ли отслеживать данные по мере их перемещения внутри продукта данных и между продуктами данных в корпоративной сетке данных?Многие современные среды данных используют детализированные микросервисы для доступа к данным, поэтому довольно часто приходится обрабатывать отдельные запросы. вызовом ряда микросервисов; Data Mesh Observability Pattern использует идентификаторы «корреляции» и «прослеживаемости», при этом идентичная корреляция идентификаторов прослеживаемости означает, что дискретные запросы связаны; Отдельные запросы на доступ к продуктам данных могут быть сгруппированы для предоставления «трассировок данных», которые определяют, как данные перемещаются в корпоративной сетке данных.
  • Что шаблоны использования данных говорят об отношениях между данными? Вышеупомянутые «трассировки данных», особенно в агрегированном виде, могут предоставить убедительное представление о том, как используется продукт данных, и о наиболее распространенных отношениях между данными в Data Продукт.

Теперь, что касается вопросов управления и руководства:

  • Кто получает доступ к моим данным и как используются мои информационные продукты? Все запросы на доступ — «чтение» и «запись» — перехватываются и регистрируются шаблоном наблюдения сетки данных. Это обеспечивает шаблоны использования необработанных данных для продукта данных.
  • Доступны ли тенденции и показатели для оптимизации моих операций с сеткой данных? Сводные данные об использовании, которые иллюстрируют более широкие модели использования, также доступны с помощью шаблона наблюдения сетки данных и доступны через каталог продуктов данных.

Как это работает

На высоком уровне шаблон наблюдения сетки данных работает, собирая необработанные события и информацию о состоянии, преобразовывая их в «события наблюдения», чтобы упростить их просмотр и использование, а затем делая их доступными для пользователей.

Рисунок 1 (ниже) иллюстрирует, как шаблон наблюдения сетки данных работает на детальном уровне.

Ключевые действия в шаблоне наблюдения за сеткой данных описаны ниже:

  1. Приложения читают и записывают продукт данных.
  2. Информация о том, кто, когда и как получает доступ к данным, фиксируется API продуктов данных.
  3. Изменения в данных в продукте данных также фиксируются с помощью встроенных в продукт данных возможностей сбора данных об изменениях, что позволяет получить ключевое представление о том, как и когда данные развиваются.
  4. Необработанные захваченные события нормализуются и преобразуются в «события наблюдаемости», которые являются основными строительными блоками, используемыми для обеспечения наблюдаемости сетки данных.
  5. События наблюдаемости фильтруются и регистрируются в неизменяемом журнале изменений/аудита, обеспечивающем исторический доступ к действиям продукта данных.
  6. Каталог продуктов данных предоставляет наблюдаемые события с помощью простого пользовательского интерфейса, который позволяет потребителям данных понять жизненный цикл данных и шаблоны использования для конкретного продукта данных.
  7. API-интерфейсы также предоставляют наблюдаемые события, используя формальную спецификацию OpenAPI с определенными и безопасными конечными точками, чтобы разрешить их использование приложениями.
  8. События наблюдаемости для всех продуктов данных доступны и доступны для поиска с использованием корпоративного каталога продуктов данных; Этот каталог обеспечивает единое унифицированное представление информации о наблюдаемости для всех продуктов данных в корпоративной сетке данных.
  9. Исследователи данных, бизнес-пользователи, разработчики и специалисты по управлению используют каталог корпоративных данных для поиска, просмотра и использования событий наблюдения.
  10. События наблюдаемости отправляются на стандартные корпоративные консоли (приложения для мониторинга, управления операциями и безопасности).
  11. Все информационные продукты создают события наблюдаемости, что делает их доступными для поиска, просмотра и использования в рамках всего предприятия.
  12. Все перемещения данных внутри и между продуктами данных в корпоративной сетке данных генерируют события наблюдаемости.

В качестве дополнительного преимущества этот шаблон также позволяет «отслеживать» запросы данных «Data Mesh Traceability» для понимания сквозных потоков. Это работает следующим образом:

Ниже описаны ключевые действия в области отслеживания сетки данных:

  1. Инициируется запрос.
  2. Запросы разбиваются на дискретные запросы данных.
  3. Для запросов могут потребоваться данные из нескольких источников, что затрудняет их отслеживание и отладку.
  4. Каждому разложенному запросу данных назначается идентичный идентификатор «трассировки данных», чтобы указать, что они относятся к одному и тому же входящему запросу.
  5. Все запросы регистрируются с соответствующими данными (SQL, источник и т. д.), включая идентификатор «трассировки данных».
  6. Запрос не работает должным образом. Почему? Как инженер данных может понять, что произошло?
  7. Инженер данных использует корпоративный каталог продуктов данных для поиска и просмотра журналов.
  8. Журналы обеспечивают просмотр необработанных запросов, а также группируют записи журнала по их идентификатору «трассировки данных», что упрощает просмотр всех компонентов запроса и диагностику проблем.

Интересно, что при соответствующем выборе идентификаторов «трассировки данных» и включении изображений «до/после» (в виде захваченных данных журнала) нетрудно расширить функции отслеживания шаблона наблюдения сетки данных для сбора информации о происхождении данных.

Заключительные мысли

Enterprise Data Mesh — это фабрика, которая управляет цифровым предприятием в реальном времени. Отслеживая перемещение данных как внутри продукта данных, так и между продуктами данных, этот шаблон позволяет разработчикам, а также производственному персоналу понимать высокоуровневые модели использования, а также низкоуровневое перемещение данных в ячеистой сети данных предприятия.

Надеемся, что эта статья даст вам необходимую информацию для оптимизации вашей собственной корпоративной сетки данных и обеспечит наглядность для удовлетворения потребностей ваших специалистов по обработке и анализу данных, разработчиков и операционного персонала.

***

Все изображения в этом документе, если не указано иное, были созданы Эриком Брода (автором этой статьи). Все значки, используемые в изображениях, являются стандартными значками PowerPoint и не защищены авторскими правами.

Мнения, выраженные в этой статье, являются исключительно моими и не обязательно отражают точку зрения моих клиентов.