Почему три из четырех технологий обмена данными не работают (уже)

Все большее число цифровых стартапов отстаивают данные как стратегический актив и создают финансовую ценность за счет обмена данными. Варианты использования бесконечны. От стратегий монетизации данных на предприятиях до данных в качестве услуги в научных исследованиях для открытия лекарств, до общедоступных данных в режиме реального времени об экологических данных, таких как изменение климата или извержения вулканов.

И все же обмен данными между разными платформами, компаниями и облаками — непростая задача. Многие подходы к совместному использованию данных не соответствуют современным требованиям к открытому формату, мультиоблачным средам и производительности.

Новый проект Delta Sharing решает многие проблемы этих существующих платформ с открытым исходным кодом.

Коммерческие БД/СХД

Коммерческие поставщики БД и ХД сообщат вам, что вы можете обмениваться данными в их системах, установив (и лицензировав) новый экземпляр их продукта. При таком подходе вы привязаны к решению этого поставщика, его ограничениям по масштабу и доступности на определенных облачных платформах (и их ценам).

sFTP

Размещение данных на (s)FTP-сервере для обмена данными не зависит от поставщика. Он может быть с открытым исходным кодом и работать в облаках.

Когда мне было за тридцать, университет с хорошо обслуживаемым FTP-сервером продемонстрировал передовые идеи. Сегодня размещение вашего FTP-сервера может привести к дискуссиям с вашей командой безопасности. Кроме того, FTP не масштабируется в облаке.

URL-адреса S3

Если все, что вы делаете, — это AWS, то S3 позволяет вам обмениваться объектами с помощью URL-адреса. Вы получаете выгоду от доступности и гарантий долговечности S3, которых вы не смогли бы достичь самостоятельно в своем цвете.

Как и FTP, предварительно подписанные недолговечные URL-адреса S3 являются довольно низкоуровневыми. Ваши 34000 CSV-файлов — это 34000 S3-объектов, но ваши специалисты по данным и инженеры данных хотят работать с таблицами и операциями CRUD над таблицами.

Дельта-обмен

Совершенно новый Delta Sharing имеет открытый исходный код. Он использует открытый протокол с хорошо документированным REST-API. Вы можете развернуть Delta Sharing как контейнер Docker, загрузить и запустить собственный готовый сервер из GitHub Releases или использовать Delta Sharing из своей учетной записи Databricks в качестве облачной службы из SQL.

Delta Sharing использует подход «сначала озеро», поэтому ваши данные остаются в облачном хранилище объектов, таком как S3, ADLS2 или GCS.

Используя любой автономный клиент Python или блокнот по анализу данных (например, Google Colab, Amazon Sagemaker или Databricks), доступ к данным можно получить из облака. Также прямой доступ обеспечивают самые популярные фреймворки для работы с большими данными, такие как Apache Spark или pandas. Также поддерживаются коммерческие клиенты, такие как Power BI или Tableau. Дальнейшие интеграции могут быть легко построены на основе простого протокола REST.

дальнейшее чтение

Похлопайте этой статье или поделитесь ею в социальных сетях, если вам понравилось ее читать. Вы можете следить за мной, чтобы узнавать больше о науке о данных, инженерии данных или новостях, связанных с AI/ML, в Твиттере: @frankmunz.