У меня 220 миллионов необработанных файлов в AWS s3, которые я собираюсь объединить в один файл, который оценивается примерно в 10 терабайт. Файл слияния будет служить таблицей фактов, но в формате файла для отчетов для аудита.
Необработанные файлы - это исходные данные из приложения. Если в приложении появятся какие-либо новые данные, содержимое файла изменится.
Я хотел бы спросить, сталкивался ли кто-нибудь с этим непрерывным процессом для этого пользовательского случая?
s3 -> ETL (объединение файлов) -> s3 -> отчет (таблица)