Как вставить массовые данные через Spark DataFrame в хранилище данных Sql Server с помощью принципа обслуживания с помощью Databricks

Я пытаюсь вставить объемные данные через искровой фреймворк в хранилище данных сервера Sql в Databricks. Для этого я использую модуль pyodbc с принципом обслуживания (не используя jdbc). Я достиг с помощью одной вставки. Я не мог найти способ вставить массовые данные в хранилище данных sql-сервера. Может ли кто-нибудь помочь мне способ вставить данные оптом?


person pythonUser    schedule 08.05.2019    source источник


Ответы (2)


Примеры здесь: https://docs.databricks.com/spark/latest/data-sources/azure/sql-data-warehouse.html.

Хотя здесь рекомендуется использовать учетную запись хранения больших двоичных объектов между ними.

Вы также можете использовать стандартный интерфейс SQL: https://docs.databricks.com/spark/latest/data-sources/sql-databases.html.

Но вы не можете использовать субъект-службу - вам понадобится вход SQL. Я бы сохранил строку подключения в хранилище ключей в секрете (используя логин SQL). Получите секрет с помощью субъекта-службы, а затем подключитесь к SQL с помощью строки подключения.

person simon_dmorias    schedule 08.05.2019

Вы можете сделать это с помощью polybase, для этого потребуется место для хранения временных файлов:

https://docs.databricks.com/data/data-sources/azure/sql-data-warehouse.html#azure-sql-data-warehouse.

person David Nguyen    schedule 21.01.2020