Как TechStyle создала свою современную платформу данных, почему ETL нужен открытый исходный код и достаточно ли хорош Airflow в качестве оркестратора данных.

Данные будут питать каждую часть нашего существования в ближайшем будущем. Я собираю Точки данных, чтобы помочь понять и сформировать это будущее.

Если вы хотите поддержать это, поделитесь им в Twitter, LinkedIn или Facebook.

(1) Современная платформа данных TechStyles

Мир данных находится в смятении, поэтому мне нравится каждый опыт, который я могу получить. Мне очень понравилась эта статья Прукалпы Санкара, в которой рассказывается о современном стеке данных со Snowflake, Atlan и Tableau.

Я просто поделюсь двумя цитатами и просто порекомендую вам прочитать всю статью. Это действительно хорошо написано.

«“Сейчас дела идут так быстро…” […] Вместо этого компания TechStyle выбрала метод проектирования данных ELT, при котором они загружают данные как есть из источника. После загрузки необработанных данных TechStyle использует гибридный подход для моделирования всего, что необходимо смоделировать, и оставляет все остальное нетронутым».

""Мы нанимаем аналитиков, но они не так эффективны, потому что не понимают данные".

Поэтому после модернизации хранилища данных они заметили, что нам нужно больше, образование, каталогизация данных и т. д. Это отличный пример сегодняшнего пути для организаций данных.

Ресурсы:

(2) Зачем ETL нужен открытый исходный код

Я снова и снова повторяю, что думаю, что в пространстве данных будут доминировать решения с открытым исходным кодом из-за «проблемы снежинок», проблемы, заключающейся в том, что каждая настройка данных внутри компаний совершенно уникальна.

Так что здорово, наконец, получить статью от ребят из airbyte на эту тему, которая подкрепляет это их опытом. Они уделяют большое внимание варианту использования ETL, и я думаю, что этот вывод применим к случаю полных данных. Но мне очень нравится, как они облекли в эту форму свой опыт и 200 интервью с компаниями и показали, какой именно путь должен пройти ETL в будущем.

Мне также нравится, как они думают о своем CDK, потому что CDK действительно является неотъемлемой частью стимулирующей структуры для их проекта с открытым исходным кодом. Приятно видеть, что, хотя они и находятся в самом начале пути, у них есть хорошее представление о том, куда им нужно идти.

Однако я думаю, что в будущем им нужно будет уделять больше времени высокоуровневой структуре пространства данных и их части с открытым исходным кодом (потому что, в конце концов, я думаю, что ETL — это система, настроенная для работы). устареет через 5-10 лет). Но я уверен, что они туда попадут.

Ресурсы:

(3) Достаточно ли хорош воздушный поток?

Анна Геллер написала хорошую статью о воздушных потоках и оркестраторах данных в целом. Вот краткое изложение ее пунктов:

Сила Airflow, несомненно, заключается в сообществе, поддержке и расширяемости, которые с ним связаны. Однако, как пишет Анна, у Airflow есть и ряд недостатков.

Нет собственного управления версиями потоков, это очень неинтуитивно для новых пользователей, у него слишком большая конфигурация, и его сложно использовать локально. Все вещи, которые в основном затрудняют быстрое развитие. Здесь также сияют некоторые из новых инструментов. Префект сосредотачивается на том, чтобы забрать многое из ваших рук. У Dagster отличная концепция тестирования, и с ним гораздо проще работать, когда дело доходит до разработки новых потоков.

Проблемы с настройкой Airflow на производстве, насколько мне известно, в основном повторяются как в Prefect, так и в Dagster, поэтому я не уверен, что это можно считать слабостью Airflow, а скорее относится к категории инструментов.

Тем не менее, существуют управляемые решения, которые избавляют от многих хлопот. Если вы ищете оркестратора данных, взгляните на статью Анны.

Ресурсы:

  • Достаточно ли хорош Apache Airflow для текущих нужд обработки данных?

🎄 В других новостях: слайды для разговора о сетке данных и благодарность

Спасибо, что дочитали до этого места! Я также был бы рад, если бы вы поделились этим информационным бюллетенем с людьми, которым, по вашему мнению, он может быть интересен.

Наконец-то я собрался поговорить о сетках данных, сосредоточившись на том, чтобы быть как можно более кратким, но в то же время поделиться своим более широким взглядом на вещи. Слайды можно найти здесь:
- https://www.slideshare.net/SvenBalnojan/mars-missions-data-meshes-a-crash-course-to-data-meshes

P.S. Я делюсь важными, а не самыми последними новостями. Я делюсь книгами, исследовательскими работами и инструментами. Я пытаюсь дать простой способ понять все эти вещи. Я склонен быть самоуверенным. Вы всегда можете нажать кнопку отказа от подписки!