Проблемы при загрузке цитируемых данных в Redshift из S3 с помощью AWS GLUE. Как мне вставить данные?

Я пытаюсь вставить набор данных в Redshift со значениями как:

"2015-04-12T00:00:00.000+05:30"
"2015-04-18T00:00:00.000+05:30"
"2015-05-09T00:00:00.000+05:30"
"2015-05-24T00:00:00.000+05:30"
"2015-07-19T00:00:00.000+05:30"
"2015-08-02T00:00:00.000+05:30"
"2015-09-05T00:00:00.000+05:30"

Сканер, который я запускал по данным S3, не может идентифицировать столбцы или тип данных значений. Я настраивал параметры таблицы, чтобы получить задание по отправке данных в Redshift, но безрезультатно. Вот что я пробовал до сих пор:

Вручную добавил столбец в определение таблицы в Каталоге клея. Выше упомянута только одна колонка.
Изменена библиотека сериализации Serde с LazySimpleSerde на org.apache.hadoop.hive.serde2.lazy.OpenCSVSerDe
Добавлены следующие параметры Serde - quoteChar ", line.delim \ n, field.delim \ n
Я уже пробовал разные комбинации свойств line.delim и field.delim. Включая одно, исключая другое и принимая оба одновременно.
Классификация изменена с UNKONWN на текст в свойствах таблицы.
Изменено свойство recordCount на 469, чтобы соответствовать количеству строк необработанных данных.

Работа выполняется всегда успешно. После выполнения задания, когда я выбираю * from table_name, я всегда получаю правильное количество строк в таблице красных смещений в соответствии с необработанными данными, но все строки имеют NULL. Как заполнить строки в Redshift?

Свойства таблицы были загружены в альбом изображений здесь: Imgur Album

Rishabh Dixit 06.03.2019 источник

comment

Я нашел обходной путь с помощью команды COPY, но я все еще ищу параметры, которые необходимо настроить для достижения тех же результатов с помощью AWS Glue. - Rishabh Dixit 08.03.2019

Ответы (1)

arrow_upward
0
arrow_downward

Мне не удалось отправить данные в Redshift с помощью Glue. Поэтому я обратился к команде COPY Redshift. Вот команда, которую я выполнил на случай, если она понадобится кому-то еще или столкнется с такой же ситуацией:

copy schema_Name.Table_Name
from 's3://Path/To/S3/Data'
iam_role 'arn:aws:iam::Redshift_Role'
FIXEDWIDTH 'Column_Name:31'
region 'us-east-1';

Rishabh Dixit 08.03.2019

Проблемы при загрузке цитируемых данных в Redshift из S3 с помощью AWS GLUE. Как мне вставить данные?

Ответы (1)

Вопросы по теме