Как сохранить Spark Dataframe в таблицу Hana Vora?

У нас есть файл, который мы хотим разделить на 3, и нам нужно выполнить некоторую очистку данных, прежде чем его можно будет импортировать в Hana Vora, иначе все должно быть напечатано как String, что не идеально.

Мы можем импортировать и подготовить кадры данных в Spark, но затем, когда я пытаюсь записать либо в файловую систему HDFS, либо, лучше, сохранить как таблицу в источнике данных «com.sap.spark.vora», я получаю ошибки.

Может ли кто-нибудь посоветовать надежный способ импорта наборов данных, подготовленных искрой, в Hana Vora? Спасибо!


person Lindsay Ryan    schedule 17.10.2016    source источник


Ответы (1)


В настоящее время Vora официально поддерживает только добавление данных в существующую таблицу (используя оператор APPEND). Подробности см. в Руководстве разработчика SAP HANA Vora -> Глава "3.5 Добавление данных". к существующим таблицам"

Это означает, что вам придется создать промежуточный файл. Vora поддерживает чтение из файлов CSV, ORC, Parquet. Фрейм данных можно сохранить в файлах ORC и Parquet непосредственно из Spark (см. https://spark.apache.org/docs/1.6.1/sql-programming-guide.htm). Чтобы записать файлы CSV из Spark, см. https://github.com/databricks/spark-csv.

person Frank Legler    schedule 25.10.2016