Рассмотрим две следующие архитектуры DWH:
DWH с хранилищем необработанных данных, слои:
- Исходные системы
- Промежуточная область (усекается при каждой загрузке, точная схема исходных таблиц)
- Хранилище сырых данных (смоделировано как хранилище данных, содержит историю записей, хабы / спутники / ссылки, смоделированные по структуре исходных систем, НИКАКИЕ бизнес-правила не применяются)
- Витрины данных (размерные модели, применяемые бизнес-правила)
DWH с постоянной промежуточной областью (PSA или HDA), слои:
- Исходные системы
- Промежуточная область (усекается при каждой загрузке, точная схема исходных таблиц)
- PSA (содержит историю записей, схему исходных таблиц + столбцы date_load / date_load_end и т. Д.)
- Витрины данных (размерные модели, применяемые бизнес-правила)
Имеет ли концепция raw Data Vault какие-либо преимущества по сравнению с концепцией PSA? На мой взгляд, моделирование Data Vault добавляет ненужной сложности с точки зрения ETL, а также снижает производительность.
Трудно найти по-настоящему хороший ответ на этот вопрос, есть мысли?
Спасибо!