Кто есть кто в современной экосистеме стека данных (осень 2021 г.)

(Эта статья изначально появилась в блоге Continual)

В нашей предыдущей статье Будущее современного стека данных мы изучили мотивацию современного стека данных, его текущее состояние и с оптимизмом посмотрели в будущее, чтобы увидеть, куда он движется. Если вы новичок в современном стеке данных, мы настоятельно рекомендуем прочитать вышеупомянутую статью. От новичков в современном стеке данных часто задают вопрос: Какие технологии нам следует изучить?. Это отличный вопрос, поскольку современный стек данных состоит из множества различных компонентов, и по мере роста его популярности многие компании стремятся провести ребрендинг и присоединиться к подножке. Мы думали, что предоставление дорожной карты для современного стека данных будет отличным ресурсом для любого, кто только начинает знакомиться с экосистемой.

Краткая история современного стека данных

Современный стек данных - это набор облачных инструментов, которые сосредоточены вокруг облачного хранилища данных и вместе составляют платформу данных. У внедрения современного стека данных много преимуществ:

Простота использования. Технологии SaaS позволяют вашей команде не беспокоиться об установке и обслуживании технологий. Все создано для хранилища данных, поэтому это сводит к минимуму проблемы интеграции и разрозненные платформы данных, которые требуют больших усилий, затрачиваемых на перемещение данных.
Широкое распространение. Современный стек данных создан с целью повышения квалификации специалистов по обработке данных и устранения барьеров между рабочими процессами; любой может быть инженером по обработке данных, аналитиком данных или инженером по машинному обучению с нужным инструментарием. SQL - это язык французского языка, который создает общую основу для работы с данными в разных дисциплинах. Обычная тема, которую мы заметили среди современных приверженцев стека данных, заключается в том, что люди больше не сосредотачиваются только на одной дисциплине и теперь являются гибридными «инженером данных / аналитиком данных / специалистом по данным».
Автоматизация. Инструменты, не ориентированные на автоматизацию, ложатся тяжелым бременем на пользователей, когда приходит время ввести в действие рабочие процессы с данными. Мы часто называем эти разбросанные вместе системы «конвейерными джунглями», где со временем становится почти невозможным распутать сложную паутину логики. Автоматизация должна быть основной функцией инструментов обработки данных.
Стоимость. Попрощайтесь с хищными продавцами с высокими вступительными взносами. В облаке вы платите за то, что используете, и не более того. Побочный эффект широко распространенных инструментов, ориентированных на автоматизацию, означает, что ваши сотрудники, работающие с данными, могут сделать больше за меньшее время и с меньшими ресурсами. Это также дает преимущества с точки зрения затрат на укомплектование группы данных.

Современный стек данных - это действительно возрождение хранилища данных в качестве основного хранилища данных для рабочих нагрузок. После нескольких десятилетий доминирования хранилища данных начали выходить из моды в эпоху «больших данных», поскольку озера данных на короткое время приобрели известность. Озера данных в конечном итоге оказались слишком сложными и дорогостоящими для большинства организаций, а быстрое внедрение облачной инфраструктуры в 2010-х предоставило прекрасную возможность для хранилища данных вернуться, на этот раз созданной для облака и включающей многие технические аспекты из перемещение больших данных. С этого момента неизбежно возникла экосистема инструментов для переосмысления рабочих процессов с данными для облачной эры.

Квалификация для современного стека данных

Что делает продукт частью современного стека данных? В нашей предыдущей статье мы изложили некоторые руководящие принципы, которые мы также будем использовать здесь. В частности, чтобы быть частью современного стека данных, технология должна быть:

Управляемая услуга. С самого начала появления облачных технологий мы поняли, что инвестирование в технологии, требующие установки и обслуживания, ложится огромным бременем на клиента. Кроме того, они, как правило, дороже (какой в этом смысл?). Если вы не работаете в отрасли, где требуется установка локального или частного облака, с каждым годом становится все более нелепым рассматривать возможность перехода на технологию, отличную от SaaS. Современный стек данных ориентирован на технологии SaaS, поэтому ваши команды могут сосредоточиться на данных, а не на технологиях.
Ориентация на облачное хранилище данных: сосредоточив внимание на облачном хранилище данных, мы максимизируем принятие и увеличиваем профили пользователей, которые могут использовать этот инструмент. Это также сводит к минимуму проблемы интеграции, и пользователи уверены, что все действительно работает, потому что их хранилище не является одним из пятисот вариантов интеграции с источниками данных. Неудивительно, что, сохраняя простой стек данных, все работает намного лучше.
Оперативная ориентация. Существует множество инструментов, которые отлично подходят для разработки или создания прототипов, но затем быстро разваливаются, когда приходит время производить рабочий продукт. Современный стек данных противоположен этой идеологии, и инструменты должны разрабатываться с учетом их практического применения. Переход от разработки к производству должен быть простым процессом, а не чем-то, что требует объединения конвейеров и вызовов API.

Основные моменты: современная экосистема стека данных - издание осень 2021 г.

По мере того, как современный стек данных продолжает расти и развиваться, в разговор вступают многие новые технологии и поставщики. Ниже представлен наш взгляд на текущие основные функциональные области современного стека данных и основных поставщиков в каждой категории. Ниже мы рассмотрим каждый из них более подробно.

Облачное хранилище данных

Основные инструменты для рассмотрения: Snowflake, Google BigQuery, AWS Redshift, Databricks SQL.

Здесь все начинается! Вы не можете начать работу с современным стеком данных без хранилища данных для хранения ваших данных. Snowflake в настоящее время является лидером в этой области, но у каждого поставщика облачных услуг есть собственное предложение, а BigQuery и Redshift обычно используются в качестве основы для современного стека данных. Databricks может здесь разрушить, поскольку его предложение SQL может привлечь внимание крупных предприятий, которые стремятся упростить свои конвейеры данных эпохи Hadoop, но не откажутся полностью от Apache Spark. Одно можно сказать наверняка: будущее живет в облаке и говорит на языке SQL.

Интеграция данных

Основные инструменты для рассмотрения: Fivetran, Airbyte, Stitch.

Хранилище данных настолько хорошо, насколько хороши данные, которые в нем хранятся, и ценно только в том случае, если вы действительно можете поместить в него полезные данные. Для каждого современного стека данных очень важно иметь инструмент интеграции данных, и его можно выбрать из нескольких. Fivetran и Stitch работают дольше всех и имеют наибольшую популярность с точки зрения помощи клиентам в переносе данных в их облачное хранилище данных, но Airbyte - это новая технология с открытым исходным кодом, которая быстро набирает базу преданных поклонников. Одно из преимуществ этих предложений по сравнению с устаревшими инструментами ETL состоит в том, что они прилагают много инженерных усилий для понимания базовых API-интерфейсов исходных систем и упрощают импорт данных с помощью нескольких щелчков кнопки. Учитывая сложность некоторых источников, таких как Salesforce, впечатляет, что с помощью этих инструментов вы можете перейти от нуля к производству менее чем за день. Никто больше не должен писать сами эти конвейеры интеграции.

Отслеживание событий

Основные инструменты, которые следует учитывать: Сегмент, Снегоочиститель, Rudderstack.

Другой аспект интеграции данных - это отслеживание событий или «платформа данных о клиентах». Они ориентированы в первую очередь на прием событий, относящихся к поведению клиентов, и дополнительно предлагают функции по преобразованию ваших данных и загрузке их в ваше облачное хранилище данных или непосредственно в такие места назначения, как Salesforce, Hubspot или Marketo. Хотя с инструментами интеграции чистых данных, описанными выше, есть некоторая перекрестная функциональность, некоторые варианты использования лучше решаются с помощью трекера событий, и нередко клиенты с радостью используют оба. Segment - наиболее авторитетный поставщик в этой области, но Snowplow - это альтернатива с открытым исходным кодом, у которой есть немалая доля сторонников, а Rudderstack - более новая компания, которая набирает обороты в последнее время после того, как Segment была приобретена Twilio.

Трансформация

Основные инструменты, которые следует учитывать: dbt.

Когда дело доходит до преобразования данных в современном стеке данных, на самом деле есть только один инструмент: dbt. dbt имеет огромное, процветающее сообщество, используется тысячами компаний и имеет открытый исходный код. Произошла небольшая вспышка, когда Dataform выглядело так, как будто оно могло бросить вызов господству dbt, но после приобретения Google довольно сложно найти компании, выбирающие использование Dataform вместо dbt. Нам еще предстоит поговорить с клиентом BigQuery, который не использует dbt. А как насчет вашего бывшего поставщика ETL? Давайте будем честными, только у dbt есть современный рабочий процесс разработчика и дизайн, ориентированный на хранилище данных, который отвечает критериям принадлежности к современному стеку данных.

Искусственный интеллект

Основные инструменты, которые следует учитывать: Постоянно.

AI - это новая запись в современном стеке данных. Мы думаем, что это следующий логический шаг для компаний, которые продвигаются вниз по современному стеку данных: у них уже есть тщательно отобранные наборы данных, отличные процессы для приема новых наборов данных и простые способы связать идеи с бизнесом. Следующая часть головоломки - это инструмент, который позволит вашей команде превратиться в инженеров по машинному обучению и начать решать варианты использования ИИ. Continual - первая платформа AI / ML, разработанная совместно с современным стеком данных. Он имеет тесную интеграцию с БД и позволяет пользователям всех профилей заходить в хранилище данных и начинать вводить ИИ в эксплуатацию за несколько дней, а не месяцев. Мы считаем, что являемся идеальным дополнением для любой компании, которая хочет получить дополнительную выгоду от данных, которые они уже собирают в своем хранилище данных. На сегодняшний день мы считаем, что являемся единственным инструментом искусственного интеллекта, который действительно соответствует требованиям клиентов современного стека данных, хотя нам бы понравилась какая-то компания! Но сложные платформы MLOps только для экспертов или инструменты искусственного интеллекта с функцией «наведи и щелкни», не ориентированные на операционную деятельность, не должны применяться.

Аналитика

Основные инструменты для рассмотрения: Looker, Mode, Tableau, ThoughtSpot, Preset.

Рынок аналитики данных и бизнес-аналитики всегда был одной из самых обсуждаемых категорий в экосистеме данных, и в современном стеке данных он не исключение. Хотя Tableau в целом занимает большую долю рынка, Looker и Mode изначально позиционировались как облачные и прочно вошли в современный стек данных. Близость Tableau к Salesforce на самом деле является преимуществом для многих клиентов, поэтому они по-прежнему широко используются. Preset представляет собой инструмент с открытым исходным кодом, который предпочитает сообщество - теперь доступный в виде облачной службы - и у ThoughtSpot есть интересная точка зрения на поисковую бизнес-аналитику, которую нельзя игнорировать.

Обратный ETL

Основные инструменты для рассмотрения: Census, Hightouch, Rudderstack.

Обратный ETL - это оборотная сторона категории интеграции данных: инструменты, упрощающие получение данных из вашего хранилища данных и обратно в приложения, которые использует ваш бизнес. И Census, и Hightouch имеют большой импульс и сильное предложение. Конкуренция подталкивает их к быстрому развитию, и с каждым днем все больше компаний получают выгоду. Для случаев использования отслеживания событий вы также можете захотеть просто сохранить весь рабочий процесс внутри того поставщика, который используется для отслеживания событий, но такая двухточечная интеграция может упустить многие преимущества дизайна, ориентированного на хранилище данных.

Управление

Основные инструменты для рассмотрения - Каталог: Алация, Атлан, Стемма, Акриловые данные.

Основные инструменты, которые следует учитывать - наблюдаемость: Монте-Карло, BigEye, Datafold, Метаплан.

Управление данными является ключом к любой организации данных. Это существенная эволюция, которую должен пройти современный стек данных, чтобы полностью развиться и стать привлекательным для крупных предприятий. Мы разбиваем это на две основные категории: каталогизация данных, то есть понимание того, какие данные существуют в хранилище данных и взаимосвязи между ними, и возможность наблюдения за данными, которая позволяет вам активно отслеживать данные в хранилище. Обе технологии являются критически важными для развертывания по мере роста и усложнения вашей практики обработки данных. В первой категории Alation - это более старый каталог с большой долей рынка, который актуален для современной толпы стеков данных, поскольку он всегда уделял большое внимание хранению данных, хотя есть много новых стартапов, которые предлагают отличные варианты для современных Практики стека данных: Atlan - впечатляющий инструмент для создания каталогов, который также содержит функции определения происхождения и качества данных, а Stemma и Acryl Data - отличные варианты, созданные на основе инструментов с открытым исходным кодом, Amundsen (Lyft) и DataHub (Linkedin) соответственно. Категория наблюдаемости данных, возможно, более загромождена, чем каталогизация данных с еще меньшим количеством сигналов, но наша ранняя оценка поля нас воодушевила Монте-Карло, BigEye, Datafold и Metaplane. Мы бы оценили их все, прежде чем принять трудное решение.

Мы следим за

Современный стек данных все еще быстро растет и развивается. Мы планируем периодически обновлять эту экосистему, поскольку мы замечаем новые тенденции, которые уже достаточно созрели для включения, а также для обновления поставщиков, которые прорываются через значительную долю рынка. В качестве тизера вот некоторые области, за которыми мы внимательно следим:

Метрики. Слой метрик для современного стека данных в последнее время вызывает много шума. Мы думаем, что это отличная идея, но она все еще находится в зачаточном состоянии.

Ознакомьтесь: Metriql и Transform

Аналитика продуктов. Она заполняет то же пространство, что и платформы данных о клиентах. Аналитика продуктов, созданная для продуктовых групп, поможет вам лучше понять продукты вашего бизнеса, кто их использует и как они используются. Это еще не является распространенным явлением в современном стеке данных, но легко понять, как это может стать основным продуктом для многих стеков.

Отъезд: Ориентировочно

Блокноты. Несмотря на то, что блокноты очень популярны среди специалистов по обработке данных, они не очень хорошо подходят для современного стека данных. Нужны ли нам ноутбуки в мире, ориентированном на sql? Несколько компаний работают над этой предпосылкой, и нетрудно представить себе, что современный стек данных откроется для дополнительных языков, но при этом останется сосредоточенным на хранилище данных.

Отметьте: Hex, Deepnote и Notable.

В режиме реального времени / потоковая передача. На сегодняшний день ядро современного стека данных сосредоточено на пакетных приложениях. Мы думаем, что через несколько лет это будет выглядеть совершенно по-другому, и обработка сценариев использования в реальном времени / потоковой передачи в современном стеке данных будет не только популярной, но и широко распространенной. Несколько компаний сейчас работают над тем, чтобы подготовить почву для этого будущего.

Проверьте: Materialise, Decodable, Meroxa и Rockset

Обслуживание приложений и Совместное использование данных. Как мы уже говорили в нашей исходной статье, мы считаем, что обе эти области созрели для инноваций, будь то от существующих поставщиков или в виде новых предложений.