Озера данных версий, декларативные DAG и общий SQL-материал с SQLPad.

Данные будут питать каждую часть нашего существования в ближайшем будущем. Я собираю Точки данных, чтобы помочь понять это будущее.

Если вы хотите поддержать это, поделитесь им в Twitter, LinkedIn или Facebook.

Три точки данных на сегодняшний день — это озера данных следующего поколения с lakeFS, декларативные DAG с пограничным уровнем и быстрое подключение инженера данных с помощью SQLPad.

1 LakeFS, данные о версиях и ветвлениях

LakeFS — это инструмент, который обеспечивает слой поверх вашего озера данных AWS S3 или GCS. Это позволяет автоматически управлять версиями и разветвлять ваши данные. Команда предоставляет множество лучших практик, например. показано, как настроить сетку данных с помощью lakeFS. Он с открытым исходным кодом и развивается довольно быстро, поэтому я предлагаю вам взглянуть на него!

Я предлагаю вам сначала взглянуть на документы, которые действительно хорошо написаны, а затем перейти к сообщению в блоге о качестве данных и, наконец, возможно, взглянуть на то, как использовать lakeFS с apache airflow.

Ресурсы

2 Пограничный слой

DAG или ориентированные ациклические графы стали концепцией, которую ученые и инженеры данных используют в своих конвейерах данных. Конвейер данных, представленный DAG, обычно содержит как «график», обозначающий шаги, и логику, связывающую их вместе, так и, возможно, сложную логику преобразования внутри шагов.

Это нарушает принцип Единого уровня абстракции и, таким образом, затрудняет понимание DAG. В Композитном методе разработчики стремятся предоставить код на одном уровне. Поскольку DAG часто содержат два или более отдельных уровня, эту проблему можно решить, извлекая один из другого. Декларативные инструменты DAG предназначены именно для этого, и инструмент DAG от Etsy кажется наиболее многообещающим. Он создан для групп DAG Apache Airflow и допускает объявление YAML DAG для пошаговой логики. Затем YAML компилируется в DAG Apache Airflow.

Fwiw, конечно, составной метод можно использовать в обычной DAG Python, используя старый добрый python. Преимущество декларативных инструментов DAG заключается в том, что они применяют этот метод, а не в том, что они являются единственным способом сделать это.

Ресурсы

3 SQLPad

Я помню, как меня назначили специалистом по данным. Получите какой-нибудь редактор SQL, попросите кого-нибудь сказать мне строки подключения, которые мне нужны, познакомьтесь с базами данных и т. Д. При работе над заявкой мне обычно приходилось собирать совершенно новый SQL.

Но управлять версиями и настраивать соединения и SQL на самом деле очень просто! А наличие красивого пользовательского интерфейса + возможность делиться учетными данными и т. д. немного ускоряет разработку. Я уже довольно давно использую SQLPad для выполнения запросов и простых визуализаций, и мне это нравится…

Вы можете использовать комбинацию версионных и исходных подключений, чтобы иметь как версионный набор данных, так и «пользовательский набор» для каждого разработчика, если это необходимо.

Мне просто нравится использовать SQLPad в качестве локального редактора SQL, работающего внутри докера с версионными подключениями + запросы, которыми можно поделиться с командой. Но вы, конечно, также можете развернуть SQLPad и поместить данные в какое-нибудь постоянное хранилище.

Ресурсы

Другие новости

P.S. Я делюсь важными, а не самыми последними новостями. Я делюсь книгами, исследовательскими работами и инструментами. Я пытаюсь дать простой способ понять все эти вещи. Но я склонен быть самоуверенным. Но вы всегда можете нажать кнопку отказа от подписки!