Просеивание данных с нескольких платформ данных может быть сложной задачей. Вот как мы решили эту проблему с помощью платформы обнаружения данных.
Я управляю аналитическими продуктами и операциями в Fivetran, «интернет-сантехнике» стоимостью 5,6 миллиарда долларов и лидере рынка в области интеграции данных. До работы в Fivetran я создал первый корпоративный стек данных в J.P. Morgan.
В Fivetran мы усердно работали над созданием сильной культуры данных. Более 90% наших сотрудников регулярно используют инструменты обработки данных. За такой мощной культурой данных стоит повсеместная проблема компаний любого размера, которые проходят цифровую трансформацию, — взрыв данных, при котором объем и разнообразие данных становятся ошеломляющими. Сегодня я хочу поделиться инструментами и лучшими практиками, которые помогут решить эту проблему.
Проблема взрыва данных
Внедрение современного стека данных приводит к резкому увеличению количества источников данных, персонажей пользователей и ресурсов данных. Этот взрыв происходит по следующим причинам:
- Распространение инструментов SaaS, потоков событий и других систем, производящих данные. В 2021 году среднее предприятие развернуло 187 приложений SaaS. Организации всех размеров стремятся централизовать данные из сотен источников в одной базе данных для аналитики.
- Современные конвейеры данных упрощают централизованное размещение огромных и разнообразных объемов данных.
- Многие разные люди зависят от отчетности в повседневных операциях. Эти люди охватывают многие команды и все уровни старшинства от руководителей до отдельных участников.
- Распространение платформ бизнес-аналитики и информационных панелей может затруднить поиск нужных данных: трудности с определением того, на какую информационную панель ссылаться; путаница при навигации по схожим активам и множеству сложных для понимания, плохо определенных или неоднозначных полей, значений и т. д. в моделях данных.
Одна из самых больших проблем, с которой сталкиваются многие группы данных, — это постоянный шквал запросов на создание большего количества источников данных, дополнительных информационных панелей и дополнительных показателей. Из-за огромного объема и разнообразия данных у них часто возникают проблемы с поиском нужных данных для использования.
Это неизбежные, непреднамеренные последствия пересечения пропасти цифровой трансформации. Для лидеров данных это может сделать корпоративные данные слишком сложными для управления. Бизнес-пользователи, несмотря на то, что они регулярно используют набор операционных панелей, часто боятся исследовать данные, выходящие за рамки их первоначальной области.
Решение: одна карта, которая просто работает
Чтобы сдержать взрыв данных, нам нужна одна платформа, которая поможет нам собрать все воедино и разобраться во всем этом.
Это требует:
- Полная инвентаризация всех активов данных, включая таблицы, информационные панели и показатели.
- Соответствующий контекст для каждого актива данных. Это включает в себя то, кто ими владеет, популярность этих активов, кто их использует чаще всего и, что наиболее важно, родословную на уровне столбца (как каждое поле связано как с вышестоящими источниками, так и с нижестоящими активами).
- Простота использования. Управление корпоративными данными уже сложно; нет причин увеличивать нагрузку на процесс управления данными. Идеальная платформа интуитивно понятна для навигации и просто работает.
В будущем потребитель данных должен иметь возможность легко узнать, какой актив данных лучше всего использовать как для повседневной работы, так и для специального исследования данных. Группа данных может легко выявлять и удалять неиспользуемые и дублирующиеся активы данных, организовывать и стандартизировать активы данных, а также создавать простые в обслуживании реестры данных.
Короче говоря, чтобы справиться со взрывным ростом активов данных, нам нужна платформа обнаружения данных, которая объединяет все активы данных в одном месте, предоставляет полезный контекст данных и упрощает поиск активов данных. В прошлом люди называли это инструментом каталога данных.
Критерии оценки и процесс принятия решения
Мы изучили все основные инструменты обнаружения данных на рынке. Есть несколько ключевых критериев, которые мы учитываем при выборе инструмента:
Критерий 1 — совместимость с современным стеком данных: нам нужен инструмент, совместимый с облачными хранилищами данных, включая BigQuery, Snowflake и Redshift, инструментами бизнес-аналитики, такими как Looker и Tableau, и инструментами конвейера, такими как Fivetran.
Критерий 2 — ценообразование. У нас есть бюджет, установленный на уровне менее 10% от нашего общего бюджета на инструменты бизнес-аналитики (это не включает стоимость облачного хранилища данных).
Критерий 3 — простота использования. Это охватывает 3 основных аспекта:
- Простота настройки — требуется только облегченная конфигурация.
- Интуитивно понятное использование — аналитики и бизнес-пользователи могут легко находить нужные ресурсы.
- Минимальные затраты на текущее обслуживание — мы не хотим быть «библиотекарями данных»!
В то время как большинство людей утверждают, что поиск данных — это очень переполненное пространство, с более чем 10 инструментами в нашем первоначальном пуле кандидатов, процесс принятия решения на самом деле был для нас очень простым. Это может показаться преувеличением, но позвольте мне объяснить:
- Существующие игроки, включая Collibra, Informatica, Alation и Data.World, не совсем подходят для нашего стека данных. Они очень дорого обходятся нашему бюджету. Их основными пользователями являются ИТ-специалисты, а не аналитики данных и бизнес-пользователи.
- Мы также не рассматривали инструменты с открытым исходным кодом, такие как Amundsen, DataHub, потому что хотели простое в использовании готовое решение. Таким образом, нашей команде не пришлось бы тратить время и ресурсы на настройку нового инструмента. Поскольку мы хотели сэкономить время, было также важно иметь под рукой службу поддержки клиентов.
- Мы не рассматривали инструменты с вертикальной интеграцией, такие как Sled, потому что не используем Snowflake внутри компании. Sled — это современный инструмент каталогизации данных, который интегрируется с экосистемой Snowflake. Их вертикальный подход к обнаружению данных, идущий вглубь, а не вширь, отличается и интересен: Sled охватывает возможности от автоматической проверки качества данных до обнаружения и происхождения данных, а также от документации до уровня метрик.
- Мы сузили наши варианты между Select Star и Atlan. Мы провели месячный пробный период и выбрали Select Star. Он лучше всего подходил для нашего варианта использования, потому что он обеспечивает основные возможности обнаружения данных лучше, чем любой другой инструмент на рынке.
В частности, Select Star лучше всего подходит для наших нужд по следующим причинам:
- Они доступны по разумной цене.
- Мы можем легко настроить интеграцию с BigQuery, Looker и Sigma. С помощью Select Star мы смогли развернуть экземпляр и настроить наши источники данных за один день.
- Это просто работает. Мы очень подчеркиваем, что не хотим, чтобы аналитики становились «операторами данных» или «библиотекарями данных». В то время как многие инструменты ожидают, что группа данных выполнит сложную настройку, чтобы сделать их полезными и удобными в сопровождении, пользователи могут легко найти нужные им активы и их происхождение.
Преодолейте пропасть исследований: оставайтесь впереди в управлении корпоративными данными
Мы выбрали инструмент, который помогает облегчить обнаружение данных, но что теперь? Независимо от того, являетесь ли вы руководителем данных в мощном предприятии, таком как J.P. Morgan, или в быстрорастущем предприятии, таком как Fivetran, есть пять основных столпов управления данными, которые вам необходимо учитывать, чтобы управлять успешной организацией данных.
Качество —гарантируйте полноту, точность и низкую задержку данных от источника до места назначения.
Целостность — защита и поддержание достоверности централизованных показателей.
Таксономия —определение и поддержание таксономии данных ключевых бизнес-показателей.
Стандартизация — определение и поддержка согласованных логических моделей данных и метрик для поддержки межфункциональных вариантов использования.
Доступ:
- Права — убедитесь, что индивидуальный доступ к данным контролируется и согласован.
- Обнаружение —гарантируйте, что активы данных легко обнаруживаются.
Хотя управление корпоративными данными может показаться сложным, я поделюсь некоторыми простыми действиями, которые помогут вам начать работу:
- Инвестируйте в чистые и надежные данные в исходной системе — большинство проблем с качеством данных возникает из-за неверных данных из исходной системы. Вы хотите инвестировать в возможности обеспечения полноты и точности исходных данных.
- Инвестируйте в надежный инструмент конвейера данных.процесс создания настраиваемого конвейера данных требует много времени, денег, чрезвычайно хрупок и требует постоянного обслуживания. Ваш инструмент конвейера данных должен быть надежным и простым в использовании. Вы же не хотите, чтобы ваша команда по работе с данными превратилась в сборщиков данных. Инструмент не должен требовать сложной настройки и обслуживания для обеспечения качества данных.
- Используйте платформу обнаружения данных или инструмент использования данных для организации активов.вам не нужно, чтобы ваша команда по работе с данными становилась операторами данных или уборщиками данных, но вам нужно разработать процесс, чтобы упорядочить ваш сад данных. Инвестируйте в инструмент обнаружения данных, который легко интегрируется с вашими основными платформами данных, или создайте внутренний инструмент использования данных, чтобы легко удалять неиспользуемые, устаревшие и дублирующие ресурсы. Большинство инструментов бизнес-аналитики содержат информацию об использовании.
- Создайте руководящий комитет для утверждения новых ресурсов. В каждой организации есть общедоступные папки для хранения ресурсов в инструменте бизнес-аналитики. Среди общедоступных папок также есть золотые активы, состоящие из информационных панелей с наивысшим приоритетом и метрик Northstar. Новые активы в общедоступных папках и изменения в золотых активах должны быть рассмотрены руководящим комитетом.Без этого ваш сад данных будет разрастаться.
Я надеюсь, что эта статья поможет вам лучше расширить возможности вашей организации, чтобы оставаться впереди в крупномасштабной цифровой трансформации. Несмотря на то, что на сегодняшний день в области управления данными достигнуты значительные технологические успехи, я считаю, что это только начало.