Athena не может разрешить файлы CSV из AWS DMS

Я настроил DMS для непрерывной репликации данных из MySQL RDS в S3. Это создает два типа файлов CSV: полная загрузка и сбор данных об изменениях (CDC). Согласно моим тестам, у меня есть следующие файлы:

testdb/addresses/LOAD001.csv.gz
testdb/addresses/20180405_205807186_csv.gz

После правильной работы DMS я запускаю AWS Glue Crawler для создания каталога данных для S3 Bucket, который содержит файлы репликации MySQL, чтобы пользователи Athena могли создавать запросы в нашем озере данных на основе S3.

К сожалению, поисковые роботы не создают правильную схему таблиц для таблиц, хранящихся в S3. В приведенном выше примере он создает две таблицы для Афины:

addresses
20180405_205807186_csv_gz

Файл 20180405_205807186_csv.gz содержит однострочное обновление, но поисковый робот не может объединить две информации (беря первую загрузку из LOAD001.csv.gz и выполняя updpate, описанный в 20180405_205807186_csv.gz).

Я также попытался создать таблицу в консоли Athena, как описано в этом сообщении блога: https://aws.amazon.com/pt/blogs/database/using-aws-database-migration-service-and-amazon-athena-to-replicate-and-run-ad-hoc-questions-on-a-sql-server-database/. Но это не дает желаемого результата.

Из сообщения в блоге:

Когда вы запрашиваете данные с помощью Amazon Athena (далее в этом посте), вы просто указываете местоположение папки на Athena, и результаты запроса включают существующие и новые вставки данных путем объединения данных из обоих файлов.

Я что-то упускаю?


person Eilliar    schedule 09.04.2018    source источник
comment
привет, есть новости по этому поводу? У меня такая же проблема   -  person Renato Bibiano    schedule 13.09.2018


Ответы (2)


Сканер AWS Glue не может согласовать разные схемы в исходных CSV-файлах LOAD и добавочных CSV-файлах CDC для каждой таблицы. Это сообщение в блоге AWS и связанные с ним шаблоны облачной информации демонстрируют, как использовать задания AWS Glue для обработки и объединения этих двух типов целевых выходных данных DMS.

person eifuentes    schedule 10.03.2021

Афина объединит файлы в am S3, если они имеют одинаковую структуру. Блог говорит только о вставках новых данных в файлы cdc. Вам нужно будет создать процесс для объединения файлов CDC. Я уверен, что это не то, что вы хотели услышать.

Из сообщение в блоге:" Когда вы запрашиваете данные с помощью Amazon Athena (далее в этом сообщении), из-за того, как AWS DMS добавляет столбец с указанием вставки, удаления и обновления нового файла, созданного как часть репликации CDC, мы не сможем выполнить запрос Athena, объединив данные из обоих файлов (исходная загрузка и файлы CDC) ».

person MikeV    schedule 04.11.2019