Как пережить взрыв данных при переходе на современный стек данных

Просеивание данных с нескольких платформ данных может быть сложной задачей. Вот как мы решили эту проблему с помощью платформы обнаружения данных.

Я управляю аналитическими продуктами и операциями в Fivetran, «интернет-сантехнике» стоимостью 5,6 миллиарда долларов и лидере рынка в области интеграции данных. До работы в Fivetran я создал первый корпоративный стек данных в J.P. Morgan.

В Fivetran мы усердно работали над созданием сильной культуры данных. Более 90% наших сотрудников регулярно используют инструменты обработки данных. За такой мощной культурой данных стоит повсеместная проблема компаний любого размера, которые проходят цифровую трансформацию, — взрыв данных, при котором объем и разнообразие данных становятся ошеломляющими. Сегодня я хочу поделиться инструментами и лучшими практиками, которые помогут решить эту проблему.

Проблема взрыва данных

Внедрение современного стека данных приводит к резкому увеличению количества источников данных, персонажей пользователей и ресурсов данных. Этот взрыв происходит по следующим причинам:

Распространение инструментов SaaS, потоков событий и других систем, производящих данные. В 2021 году среднее предприятие развернуло 187 приложений SaaS. Организации всех размеров стремятся централизовать данные из сотен источников в одной базе данных для аналитики.
Современные конвейеры данных упрощают централизованное размещение огромных и разнообразных объемов данных.
Многие разные люди зависят от отчетности в повседневных операциях. Эти люди охватывают многие команды и все уровни старшинства от руководителей до отдельных участников.
Распространение платформ бизнес-аналитики и информационных панелей может затруднить поиск нужных данных: трудности с определением того, на какую информационную панель ссылаться; путаница при навигации по схожим активам и множеству сложных для понимания, плохо определенных или неоднозначных полей, значений и т. д. в моделях данных.

Одна из самых больших проблем, с которой сталкиваются многие группы данных, — это постоянный шквал запросов на создание большего количества источников данных, дополнительных информационных панелей и дополнительных показателей. Из-за огромного объема и разнообразия данных у них часто возникают проблемы с поиском нужных данных для использования.

Это неизбежные, непреднамеренные последствия пересечения пропасти цифровой трансформации. Для лидеров данных это может сделать корпоративные данные слишком сложными для управления. Бизнес-пользователи, несмотря на то, что они регулярно используют набор операционных панелей, часто боятся исследовать данные, выходящие за рамки их первоначальной области.

Решение: одна карта, которая просто работает

Чтобы сдержать взрыв данных, нам нужна одна платформа, которая поможет нам собрать все воедино и разобраться во всем этом.

Это требует:

Полная инвентаризация всех активов данных, включая таблицы, информационные панели и показатели.
Соответствующий контекст для каждого актива данных. Это включает в себя то, кто ими владеет, популярность этих активов, кто их использует чаще всего и, что наиболее важно, родословную на уровне столбца (как каждое поле связано как с вышестоящими источниками, так и с нижестоящими активами).
Простота использования. Управление корпоративными данными уже сложно; нет причин увеличивать нагрузку на процесс управления данными. Идеальная платформа интуитивно понятна для навигации и просто работает.

В будущем потребитель данных должен иметь возможность легко узнать, какой актив данных лучше всего использовать как для повседневной работы, так и для специального исследования данных. Группа данных может легко выявлять и удалять неиспользуемые и дублирующиеся активы данных, организовывать и стандартизировать активы данных, а также создавать простые в обслуживании реестры данных.

Короче говоря, чтобы справиться со взрывным ростом активов данных, нам нужна платформа обнаружения данных, которая объединяет все активы данных в одном месте, предоставляет полезный контекст данных и упрощает поиск активов данных. В прошлом люди называли это инструментом каталога данных.

Критерии оценки и процесс принятия решения

Мы изучили все основные инструменты обнаружения данных на рынке. Есть несколько ключевых критериев, которые мы учитываем при выборе инструмента:

Критерий 1 — совместимость с современным стеком данных: нам нужен инструмент, совместимый с облачными хранилищами данных, включая BigQuery, Snowflake и Redshift, инструментами бизнес-аналитики, такими как Looker и Tableau, и инструментами конвейера, такими как Fivetran.

Критерий 2 — ценообразование. У нас есть бюджет, установленный на уровне менее 10% от нашего общего бюджета на инструменты бизнес-аналитики (это не включает стоимость облачного хранилища данных).

Критерий 3 — простота использования. Это охватывает 3 основных аспекта:

Простота настройки — требуется только облегченная конфигурация.
Интуитивно понятное использование — аналитики и бизнес-пользователи могут легко находить нужные ресурсы.
Минимальные затраты на текущее обслуживание — мы не хотим быть «библиотекарями данных»!

В то время как большинство людей утверждают, что поиск данных — это очень переполненное пространство, с более чем 10 инструментами в нашем первоначальном пуле кандидатов, процесс принятия решения на самом деле был для нас очень простым. Это может показаться преувеличением, но позвольте мне объяснить:

Существующие игроки, включая Collibra, Informatica, Alation и Data.World, не совсем подходят для нашего стека данных. Они очень дорого обходятся нашему бюджету. Их основными пользователями являются ИТ-специалисты, а не аналитики данных и бизнес-пользователи.
Мы также не рассматривали инструменты с открытым исходным кодом, такие как Amundsen, DataHub, потому что хотели простое в использовании готовое решение. Таким образом, нашей команде не пришлось бы тратить время и ресурсы на настройку нового инструмента. Поскольку мы хотели сэкономить время, было также важно иметь под рукой службу поддержки клиентов.
Мы не рассматривали инструменты с вертикальной интеграцией, такие как Sled, потому что не используем Snowflake внутри компании. Sled — это современный инструмент каталогизации данных, который интегрируется с экосистемой Snowflake. Их вертикальный подход к обнаружению данных, идущий вглубь, а не вширь, отличается и интересен: Sled охватывает возможности от автоматической проверки качества данных до обнаружения и происхождения данных, а также от документации до уровня метрик.
Мы сузили наши варианты между Select Star и Atlan. Мы провели месячный пробный период и выбрали Select Star. Он лучше всего подходил для нашего варианта использования, потому что он обеспечивает основные возможности обнаружения данных лучше, чем любой другой инструмент на рынке.

В частности, Select Star лучше всего подходит для наших нужд по следующим причинам:

Они доступны по разумной цене.
Мы можем легко настроить интеграцию с BigQuery, Looker и Sigma. С помощью Select Star мы смогли развернуть экземпляр и настроить наши источники данных за один день.
Это просто работает. Мы очень подчеркиваем, что не хотим, чтобы аналитики становились «операторами данных» или «библиотекарями данных». В то время как многие инструменты ожидают, что группа данных выполнит сложную настройку, чтобы сделать их полезными и удобными в сопровождении, пользователи могут легко найти нужные им активы и их происхождение.

Преодолейте пропасть исследований: оставайтесь впереди в управлении корпоративными данными

Мы выбрали инструмент, который помогает облегчить обнаружение данных, но что теперь? Независимо от того, являетесь ли вы руководителем данных в мощном предприятии, таком как J.P. Morgan, или в быстрорастущем предприятии, таком как Fivetran, есть пять основных столпов управления данными, которые вам необходимо учитывать, чтобы управлять успешной организацией данных.

Качество —гарантируйте полноту, точность и низкую задержку данных от источника до места назначения.

Целостность — защита и поддержание достоверности централизованных показателей.

Таксономия —определение и поддержание таксономии данных ключевых бизнес-показателей.

Стандартизация — определение и поддержка согласованных логических моделей данных и метрик для поддержки межфункциональных вариантов использования.

Доступ:

Права — убедитесь, что индивидуальный доступ к данным контролируется и согласован.
Обнаружение —гарантируйте, что активы данных легко обнаруживаются.

Хотя управление корпоративными данными может показаться сложным, я поделюсь некоторыми простыми действиями, которые помогут вам начать работу:

Инвестируйте в чистые и надежные данные в исходной системе — большинство проблем с качеством данных возникает из-за неверных данных из исходной системы. Вы хотите инвестировать в возможности обеспечения полноты и точности исходных данных.
Инвестируйте в надежный инструмент конвейера данных.процесс создания настраиваемого конвейера данных требует много времени, денег, чрезвычайно хрупок и требует постоянного обслуживания. Ваш инструмент конвейера данных должен быть надежным и простым в использовании. Вы же не хотите, чтобы ваша команда по работе с данными превратилась в сборщиков данных. Инструмент не должен требовать сложной настройки и обслуживания для обеспечения качества данных.
Используйте платформу обнаружения данных или инструмент использования данных для организации активов.вам не нужно, чтобы ваша команда по работе с данными становилась операторами данных или уборщиками данных, но вам нужно разработать процесс, чтобы упорядочить ваш сад данных. Инвестируйте в инструмент обнаружения данных, который легко интегрируется с вашими основными платформами данных, или создайте внутренний инструмент использования данных, чтобы легко удалять неиспользуемые, устаревшие и дублирующие ресурсы. Большинство инструментов бизнес-аналитики содержат информацию об использовании.
Создайте руководящий комитет для утверждения новых ресурсов. В каждой организации есть общедоступные папки для хранения ресурсов в инструменте бизнес-аналитики. Среди общедоступных папок также есть золотые активы, состоящие из информационных панелей с наивысшим приоритетом и метрик Northstar. Новые активы в общедоступных папках и изменения в золотых активах должны быть рассмотрены руководящим комитетом.Без этого ваш сад данных будет разрастаться.

Я надеюсь, что эта статья поможет вам лучше расширить возможности вашей организации, чтобы оставаться впереди в крупномасштабной цифровой трансформации. Несмотря на то, что на сегодняшний день в области управления данными достигнуты значительные технологические успехи, я считаю, что это только начало.