ETL не покрывает наши современные потребности в данных

Каждое утро большинство из нас начинают свой день с проверки телефонов. Мы следим за тем, что происходит в мире, общаемся с друзьями и семьей и смотрим пару видеороликов о кошках. Все эти действия требуют, чтобы в фоновом режиме происходили десятки вещей, включая курирование и загрузку данных, которые обеспечивают то, что мы хотим видеть. В совокупности мы генерируем астрономический объем данных, около 2,5 квинтиллионов байтов в день (Forbes, 2018).

Кто-то должен управлять всеми этими данными, но большая часть словаря, который мы используем для описания этих процессов, устарела. Вот почему я хотел представить идею ELTIMS, новой аббревиатуры, которая лучше отражает то, что компании должны создать, чтобы удовлетворить потребности современных потребителей.

Помимо рассмотрения аббревиатуры и вариантов ее использования, статья также дает представление о направлении многих компаний, ориентированных на данные, на основе современных потребностей в данных. Давайте сначала начнем с истории преобразования данных, комментариев о некоторых из крупнейших игроков и того, почему ELTIMS — это естественный путь вперед.

Оригинальная аббревиатура - ETL

В 1970-х годах компьютеры вышли в сеть и начали генерировать цифровые данные. Помимо хранения данных, нам нужен был способ подготовить их для последующих приложений.

Когда в начале 90-х годов появились хранилища данных, мы начали видеть централизованное место для данных и их преобразований. Эти хранилища данных все еще были ограничены в используемых ими форматах и ​​операциях, которые вы могли выполнять в них, поэтому перед загрузкой данных требовались промежуточные шаги (преобразования).

С тех пор хранилища данных и хранилища данных в целом получили дополнительные возможности трансформации благодаря поддержке SQL, представлений, заданий и хранимых процедур. В сочетании с масштабируемыми облачными предложениями мы могли бы опробовать новую парадигму.

Получите данные, разберитесь с этим позже! — ЭЛТ

Концепция ELT весьма убедительна: вместо того, чтобы иметь промежуточную систему, которая ограничивает вашу передачу данных, вы перемещаете ее вниз по течению и позволяете этой системе обрабатывать данные! Хотя это звучит как перекладывание ответственности, вы получаете несколько преимуществ:

  • Вычислительные ресурсы для преобразования находятся ближе к хранилищу, что обычно приводит к более высокой производительности.
  • Команда хранения данных теперь владеет этим процессом, поэтому у вас, вероятно, будет более быстрая итерация и лучшее сотрудничество.
  • У вас больше гибкости при создании новых представлений, поскольку данные централизованы.

Есть и недостатки, особенно если ваша нижестоящая система негибкая или дорогая. Чтобы смягчить это, поставщики решений разделили затраты на хранение и вычисления и ввели повышенную гибкость форматов. Некоторые из этих улучшений функций включают в себя:

  • Snowflake и Databricks предоставляют хранилище по цене поставщика облачных услуг (S3, Blob и т. д.), обеспечивая при этом все возможности аналитики.
  • Snowflake и Databricks отделяют вычислительные ресурсы от хранилища, а несколько поставщиков решений приближаются к тому, чтобы предоставить возможности без использования серверов.
  • Snowflake, BigQuery, Redshift, Azure Synapse, Databricks с поддержкой JSON и частично структурированных данных
  • Основные игроки (перечислены выше), позволяющие запускать собственные задачи преобразования и задания в своих процедурах хранения данных.

В течение последних нескольких лет эти достижения были направлены на удовлетворение потребностей потребителей в вычислительных ресурсах и хранилищах для их процессов ELT. Контролируя эти два аспекта, поставщики с большей вероятностью сделают клиентов довольными и приверженными своим платформам.

Конкурентная информация: управление вычислительными ресурсами и хранилищем

Как мы упоминали ранее, целью игры было управление как вычислительными ресурсами, так и хранилищем. Предыдущие лидеры, такие как Terradata и IBM, отстали в этом пространстве из-за их медленного старта в облачном пространстве и большого количества устаревших локальных клиентов, что ограничивало их способность предлагать конкурентоспособные гибкие решения.

Одним из подходов к управлению как хранилищем, так и вычислениями является разделение хранения и вычислений, что означает, что клиенты получают преимущества гибкости бессерверных вычислений и низкие затраты на объектное хранилище. Это разделение было одним из самых больших преимуществ Snowflake, а затем и Databricks. Другие поставщики все еще догоняют бессерверное пространство, но разрыв быстро сокращается благодаря таким продуктам, как Redshift Spectrum, Azure Synapse и BigQuery, которые получают прибыль благодаря огромным командам инженеров. Это приводит к необходимости построить ров вокруг вашего предложения с новыми форматами и пользовательскими рабочими нагрузками, которые являются предпочтительными инструментами.

Создание рвов — настраиваемые рабочие процессы и новые форматы

По мере развития ELT-пространства крупным игрокам необходимо будет защищать свои существующие учетные записи. Лучший способ сделать это — предложить клиентам удобные функции, которые облегчат их жизнь, но при этом увеличат затраты на переход.

Первый и наиболее связанный с ELT — это настраиваемые рабочие процессы. Ключевой частью ELT является возможность настройки и стоимость выполнения всех преобразований. Это привело к тому, что функции были встроены в существующие платформы или более глубокая интеграция со смежными продуктами или функциями. Вот некоторые примеры:

  • Бессерверная Azure DataFactory с десятками интеграций
  • Бессерверные клеевые задания
  • Snowpipe и пользовательские задачи SQL/UDF в Snowflake
  • Кластеры Jobs Api и более дешевые представлены в Databricks

Для потребителя рабочий процесс на основе платформы позволяет использовать собственные возможности платформы и сокращает количество используемых инструментов.

Если вы представляете предприятие с потенциально сотнями рабочих процессов, миграция этих рабочих процессов становится отдельным проектом, что повышает вероятность того, что вы продолжите использовать существующее решение. Чтобы бороться с этой инерцией, многие поставщики разрабатывают инструменты миграции, такие как Babelfish, библиотеку SQL Server для PostgreSQL, которая была представлена ​​на AWS Reinvent 2020. Также было обещано, что исходный код Babelfish станет открытым в 2021 году, чтобы обеспечить более широкие преимущества для сообщества.

Интересная часть инструментов с открытым исходным кодом заключается в том, что они предоставляют огромные возможности для создания успешного бизнеса и завоевания рыночных ниш. Такие компании, как Redhat, Hashicorp и Databricks, являются одними из самых успешных компаний, среди которых сотни других успешных компаний.

Так при чем здесь ров? Создав новый стандарт с открытым исходным кодом и получив широкое распространение, компании могут создать прочную привязку к «своим экосистемам». В случае Databricks MLFlow и Delta Lake — отличные инструменты с открытым исходным кодом, которые также дают ему огромное конкурентное преимущество. Клиенты, использующие эти инструменты и их интеграцию с Databricks, с меньшей вероятностью переедут. Озеро Delta используется Databricks в качестве пользовательского формата хранилища для поддержки их архитектуры Lakehouse, которая позволяет выполнять быстрые и версионные запросы данных.

Клиенты получают лучший опыт работы с данными, а также им будет труднее мигрировать, так что же может не нравиться?

Ограниченные операции, рост расходов

Несмотря на то, что в последних двух абзацах Databricks и Snowflake положительно отзывались о примерах, у них все еще есть некоторые ключевые ограничения, которые не позволили им завоевать место.

Databricks по-прежнему довольно дорог, поскольку он был разработан как искровой инструмент для обработки больших данных. Таким образом, запуск неискровых заданий обходится дорого для таких вещей, как повседневный анализ и визуализация Python. До появления Lakehouse им также требовалась загрузка данных в память для выполнения заданий SQL, а не сохранение представлений, как в традиционном хранилище.

Snowflake, с другой стороны, разобралась с большей частью традиционного стека ELT, но только начинает проникать в пространство сценариев и визуализации. Недавно они добавили поддержку Python и сотрудничали с Anaconda и представили легкий инструмент бизнес-аналитики под названием Snowsight.

Получите некоторую информацию, проведите моделирование — ELTIM

В конце концов, компании инвестируют в инфраструктуру данных, чтобы получать информацию, которая может способствовать развитию их бизнеса. Тенденции клиентов, отрасли и продуктов должны быть поняты и применимы к действиям, а данные являются ключевыми составляющими.

Эти идеи обычно собираются с помощью агрегации данных, статистических тестов и визуализации, для которых обычно требуются собственные технологические стеки. Агрегацию легко выполнить в традиционном хранилище данных, но другие подходы ранее требовали перемещения ваших данных в отдельный инструмент или экосистему.

Это создает проблемы с настройкой и интеграцией дополнительных инструментов, повышенными эксплуатационными расходами из-за исходящих данных и задержкой при перемещении данных между источниками. Даже несмотря на эти недостатки, такие инструменты, как Tableau, Data robot и Dataiku, смогли создать или сохранить значительное количество подписчиков. Часто прилипчивость существующего инструмента и набора функций преодолевает неполный интегрированный опыт.

Прогнозируется, что мировые расходы на решения для больших данных и бизнес-аналитики (BDA) в этом году достигнут 215,7 млрд долларов США, что на 10,1% больше, чем в 2020 году, согласно новому обновлению Руководства по расходам на большие данные и аналитику в мире от International Data Corporation ( МРСК)

Поскольку рынок данных быстро растет, а новые функции выпускаются каждый день, на рынке произойдет значительный отток, поскольку компании продолжают инвестировать в свои методы работы с данными. Полностью интегрированная платформа данных особенно привлекательна, поскольку помогает пользователям быстрее выводить свои продукты на рынок, снижает затраты на разработку и обеспечивает лучшую безопасность.

В конце концов, эта платформа должна интегрироваться с другими технологическими решениями и быть пригодной для использования конечным покупателем, что приводит нас к основной части статьи — ELTIMS.

Служите тому, что вы сделали — ELTIMS

Ядро нашей статьи нуждается в еще одном шаге, шаге «обслуживания». Одна из самых больших проблем, с которыми сталкиваются компании, — это запуск своих моделей в производство в среде, ориентированной на клиента. Часто этот шаг занимает несколько недель, а приведенная ниже диаграмма основана на исследовании 700 компаний, проведенном Algorithmia.

Чтобы захватить эту часть рынка, мы видели, как существующие игроки представили функции обслуживания моделей, включая масштабируемые конечные точки, управление версиями моделей, поддержку GPU и многое другое. Добавление этой возможности к существующим платформам делает предложение весьма привлекательным, позволяя взять модель, которую вы обучили, и запустить ее в производство, не выходя из среды.

Крупные облачные игроки (AWS, Azure, GCP) интегрируют свои инструменты, чтобы это произошло. AWS Sagemaker, Azure Synapse и Vertex AI обещают обеспечить бесперебойную работу с ELTIMS, а также хорошо интегрироваться со стеком ваших приложений. Databricks также недавно добавила обслуживание моделей, и единороги, финансируемые венчурным капиталом, такие как DataRobot и Weights&Biases, продолжают работать в этой области.

Этап подачи важен, но он не может существовать изолированно. Недавно мы использовали MLOps как универсальный термин для запуска моделей в производство, но хорошая практика работы с данными выходит за рамки простого построения моделей, это основа любого расширения бизнеса.

ELTIMS интересен, потому что он отражает требования нового поколения платформ данных, ориентированных на бесшовный и интегрированный пользовательский интерфейс. Он снабжен аббревиатурой, которая описывает, что мы можем делать с платформой, и основывается на богатой истории разработки данных.

ELTIMS — это будущее на данный момент

Мы прошли через эволюцию информационных продуктов за последние 40 лет, и многое, безусловно, изменилось. Поскольку машинное обучение в настоящее время является ведущей областью цифровой трансформации и развития компаний, создание полнофункциональной системы ELTIMS является целевым состоянием для многих компаний.

Крупнейшие компании мира в значительной степени решили эти проблемы самостоятельно, но, за исключением FANMG++, очень немногие компании достигли зрелости в своих процессах ELTIMS. С таким большим рынком и привязанностью к пространству данных мы можем ожидать, что миллиарды долларов будут инвестированы в развитие ELTIMS на долгие годы.