Как масштабировать обмен данными

Data Mesh — это новый способ представления данных, основанный на распределенной архитектуре управления данными. Идея состоит в том, чтобы связать владельцев данных, производителей данных и потребителей данных, чтобы сделать данные более доступными и доступными для бизнес-пользователей. Data Mesh кажется многообещающей архитектурой данных. Но насколько это осуществимо на практике? Патрик Клинглер (Patrick Klingler), руководитель отдела CDO в Mercedes-Benz, ответил на этот вопрос на содержательной сессии в рамках Всемирного веб-семинара по искусственному интеллекту.

Вся сессия теперь доступна для просмотра по запросу на нашем сайте и канале YouTube вместе с остальной частью конференции!

Ключевые выводы

Текущая ситуация на предприятиях препятствует обмену данными

По словам Патрика Клинглера, в прошлом существовало строгое разделение между бизнес- и ИТ-подразделениями. Даже в ИТ-подразделениях группы разработки и эксплуатации работали независимо друг от друга, несмотря на то, что они были однородными.

Сегодня на большинстве предприятий есть продуктовые группы с межфункциональными сквозными навыками и обязанностями. Люди также работают с озерами данных вместо хранилищ данных, как раньше, из-за растущей важности полуструктурированных и структурированных данных, а также потому, что озера данных могут ускорить обмен данными.

Тем не менее, есть несколько проблем, связанных с масштабированием обмена данными на предприятиях:

  1. Отсутствие стимулов для предоставления высококачественных данных, поскольку поставщики данных часто не видят цели обмена данными.
  2. Разделение поставщика данных и потребителя
  3. Центральные группы данных становятся узкими местами, поскольку у них есть практический опыт работы с данными, но мало знаний в предметной области, что приводит к неспособности обрабатывать и анализировать данные.

Архитектура Data Mesh — это новая парадигма корпоративного обмена данными.

С Data Mesh данные рассматриваются как продукты, и все построено на инфраструктуре данных самообслуживания.

Если мы придем к этой парадигме, Патрик Клинглер считал, что это принесет большие преимущества, а именно:

  • Предоставляется больше данных с большим количеством и более высоким качеством
  • Упрощение потребления данных
  • Отсутствие центрального узкого места, что обеспечивает лучшую масштабируемость

4 стратегических элемента перехода к Data Mesh

Вертикальная бизнес-архитектура

Многие предприятия в настоящее время все еще имеют монолитные системы с длинными задержками. Патрик Клинглер рекомендовал разделить его на вертикальный бизнес-ландшафт цифровых продуктов. Стать организацией, ориентированной на предметную область, со сквозными навыками, должно быть целью компаний, которые хотят значительных изменений.

Размышление о продукте данных

Патрик считал это ядром Data Mesh. Мышление продукта данных означает рассмотрение данных как типа цифрового продукта, а не как побочный эффект.

Создание платформы инфраструктуры данных

Настоятельно рекомендуется использовать платформы самообслуживания, которые обеспечивают хранение, вычисления, шлюзы API или каталог данных.

Глобальные стандарты и управление

Г-н Клинглер предложил владельцам бизнеса обеспечить глобальное управление и стандарты, чтобы сделать данные более интероперабельными.

Информационный продукт — это операционный актив данных.

Патрик Клинглер определил информационный продукт как «актив данных, оптимизированный для потребления». Это означает, что информационный продукт должен:

  • адаптироваться к запросам потребителей
  • состоят из набора данных, метаданных и кода для обработки
  • иметь набор прилагаемых политик управления
  • предоставляться и управляться командами продуктов данных
  • иметь управление жизненным циклом
  • быть зарегистрированным на бирже данных

Он также подробно описал два подхода к идентификации продуктов данных в организациях: подход «сверху вниз» и подход «снизу вверх».

Разоблачение мифов о сетке данных

Патрик Клинглер заметил несколько неправильных представлений о сетке данных и хотел бы прояснить их.

Он заявил, что Data Mesh — это не децентрализованная и неконтролируемая архитектура данных и платформы, технология, которую можно просто установить или передать на аутсорсинг, и не одноразовая инвестиция для обеспечения технического доступа к необработанным данным для потребителей.

Скорее, Data Mesh — это ответственность за децентрализованный продукт данных, основанный на общих стандартах, изменение культуры обработки данных и акцент на требованиях потребителей.

Подпишитесь на нас в LinkedIn, Twitter, Facebook и YouTube, чтобы получать ежедневные отраслевые обновления!