автор Бен Рогожан

Загрузка файлов в базы данных - не совсем увлекательная работа. Это может быть утомительная и утомительная работа. Часто это ограничивается такими инструментами, как SSIS, которые пугаются при внесении небольшого изменения.

Это одна из основных ролей групп бизнес-аналитики и инженерии данных. Им необходимо загружать файлы из операционных баз данных в хранилища данных. Для этого они разрабатывают конвейеры, обрабатывающие и преобразующие данные.

Одна из проблем, которую мы видим, заключается в том, что у команд есть несколько типов файлов, версий спецификаций и поставщиков данных. Каждый из них требует отдельного конвейера только для загрузки в их необработанную базу данных.

Это вынуждает команды управлять 10, 20, может быть, даже 50 небольшими конвейерами, которые могут быть изменены поставщиками данных. Кроме того, каждый новый поставщик данных требует разработки совершенно нового конвейера. Это также требует управления инфраструктурой вокруг каждого конвейера, чтобы регистрировать и отслеживать состояния конвейеров данных. Это может быстро стать очень сложным в управлении и утомительным для создания.

Другое решение вместо попытки управлять несколькими конвейерами - разработать центральную систему, которая управляет различными операторами вставки, необходимыми для вставки данных в каждую отдельную необработанную таблицу. Примерно то, как мы объясняем в видео ниже.

По сути, система действует как поисковая система, которая сопоставляет плоские файлы с их запросами на вставку. Это снижает потребность в избыточном наличии отдельных конвейеров, для которых также потребуется оператор вставки.

Вместо этого теперь система использует одну главную систему для загрузки всех различных таблиц. Теоретически вы также можете указать номера версий для каждого из входящих файлов. Это можно настроить, отслеживая каждую версию в таблице метаданных, что затем позволит вам связать необработанный файл с версией вставляемого файла.

Загрузка нескольких типов файлов с помощью отдельных конвейеров требует утомительной разработки. Будь то SSIS или другая система, постоянное развитие быстро ложится тяжелым бременем на инженеров по обработке данных. Вместо того, чтобы тратить время на разработку аналитических конвейеров, которые приносят очевидную пользу вашей компании. Они застрянут в обслуживании и развитии действующих трубопроводов.

Это снижает его влияние и снижает его общую ценность.

Большое спасибо за чтение! Мы надеемся, что вам понравилось видео. Пожалуйста, присылайте нам любые вопросы. Мы будем рады помочь вам разработать вашу следующую систему автоматизации.

Также, если вам это понравилось, не стесняйтесь посмотреть наше видео об использовании объемной вставки!