Я пытаюсь прочитать данные из системы AWS RDS и записать в Snowflake с помощью SPARK. Моя работа SPARK устанавливает соединение JDBC с RDS и извлекает данные в фрейм данных и, с другой стороны, тот же фрейм данных, который я записываю в снежинку с помощью коннектора снежинки.
Постановка проблемы: когда я пытаюсь записать данные, запись даже 30 ГБ занимает много времени.
Решение, которое я пробовал:
1) переразбиение фрейма данных перед записью.
2) кэширование фрейма данных.
3) подсчет df перед записью, чтобы сократить время сканирования при записи.