Проблемы при загрузке цитируемых данных в Redshift из S3 с помощью AWS GLUE. Как мне вставить данные?

Я пытаюсь вставить набор данных в Redshift со значениями как:

"2015-04-12T00:00:00.000+05:30"
"2015-04-18T00:00:00.000+05:30"
"2015-05-09T00:00:00.000+05:30"
"2015-05-24T00:00:00.000+05:30"
"2015-07-19T00:00:00.000+05:30"
"2015-08-02T00:00:00.000+05:30"
"2015-09-05T00:00:00.000+05:30"

Сканер, который я запускал по данным S3, не может идентифицировать столбцы или тип данных значений. Я настраивал параметры таблицы, чтобы получить задание по отправке данных в Redshift, но безрезультатно. Вот что я пробовал до сих пор:

  1. Вручную добавил столбец в определение таблицы в Каталоге клея. Выше упомянута только одна колонка.
  2. Изменена библиотека сериализации Serde с LazySimpleSerde на org.apache.hadoop.hive.serde2.lazy.OpenCSVSerDe
  3. Добавлены следующие параметры Serde - quoteChar ", line.delim \ n, field.delim \ n
  4. Я уже пробовал разные комбинации свойств line.delim и field.delim. Включая одно, исключая другое и принимая оба одновременно.
  5. Классификация изменена с UNKONWN на текст в свойствах таблицы.
  6. Изменено свойство recordCount на 469, чтобы соответствовать количеству строк необработанных данных.

Работа выполняется всегда успешно. После выполнения задания, когда я выбираю * from table_name, я всегда получаю правильное количество строк в таблице красных смещений в соответствии с необработанными данными, но все строки имеют NULL. Как заполнить строки в Redshift?

Свойства таблицы были загружены в альбом изображений здесь: Imgur Album


person Rishabh Dixit    schedule 06.03.2019    source источник
comment
Я нашел обходной путь с помощью команды COPY, но я все еще ищу параметры, которые необходимо настроить для достижения тех же результатов с помощью AWS Glue.   -  person Rishabh Dixit    schedule 08.03.2019


Ответы (1)


Мне не удалось отправить данные в Redshift с помощью Glue. Поэтому я обратился к команде COPY Redshift. Вот команда, которую я выполнил на случай, если она понадобится кому-то еще или столкнется с такой же ситуацией:

copy schema_Name.Table_Name
from 's3://Path/To/S3/Data'
iam_role 'arn:aws:iam::Redshift_Role'
FIXEDWIDTH 'Column_Name:31'
region 'us-east-1';
person Rishabh Dixit    schedule 08.03.2019