Подключите искру к инструментам бизнес-аналитики, таким как power bi и tableau

Мне нужно подключить искру к powerbi. Я не знаю необходимых драйверов для того же. А также я запускаю искру в локальном режиме без установки apache hive. Поэтому у меня нет файла hive-site.xml для настройки сервера сбережений. После запуска комиссионного сервера я запустил $SPARK_HOME\bin\beeline.cmd и подключил комиссионный сервер с помощью команды !connect jdbc:hive2://localhost:10000 и использовал идентификатор пользователя в качестве администратора (такой же, как на моей локальной машине) и пустой пароль, и результат был таким:

beeline> !connect jdbc:hive2://localhost:10000
Connecting to jdbc:hive2://localhost:10000
Enter username for jdbc:hive2://localhost:10000: Administrator
Enter password for jdbc:hive2://localhost:10000:
log4j:WARN No appenders could be found for logger (org.apache.hive.jdbc.Utils).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
Connected to: Spark SQL (version 2.0.1)
Driver: Hive JDBC (version 1.2.1.spark2)
Transaction isolation: TRANSACTION_REPEATABLE_READ

Вроде подключение установлено, но при запросе к базам данных командой: show databases; выдает ошибку (в билайне):

Error: org.apache.thrift.transport.TTransportException: java.net.SocketException: Software caused connection abort: socket write error (state=08S01,code=0)` and error(in thrift server cmd):`Exception in thread "HiveServer2-Handler-Pool: Thread-XXX"
Exception: java.lang.OutOfMemoryError thrown from the UncaughtExceptionHandler in thread "HiveServer2-Handler-Pool: Thread-XXX"

Я не понимаю эту ошибку. Пожалуйста, помогите мне в этом, а также я хочу подключить его к рабочему столу powerbi, установленному на локальном компьютере. Может ли кто-нибудь предоставить несколько ссылок для чтения для установления связи?


person Bhanuday Birla    schedule 23.11.2016    source источник


Ответы (1)


@Birla, похоже на ошибку TCP, как указано в заданном вопросе здесь.

Не рекомендуется использовать Thrift на локальном компьютере, поскольку серверу Thrift требуется довольно хорошая обработка с выделенными серверами Metastore для обработки аутентификации и параллелизма.

Рекомендуется. Установите готовые к работе виртуальные машины Horton Works/Cloudera, а затем получите доступ к ним из Power BI.

Изображение объясняет все

Подключить пользователя Spark Thrift очень просто

person JustCoder    schedule 23.11.2016
comment
Спасибо за ваш ответ. Сейчас только тестирую соединения. Когда все будет готово, я буду работать в кластерном режиме с выделенными серверами хранилища метаданных. Я не могу определить точное средство от ошибки. Можно поконкретнее с решением. - person Bhanuday Birla; 23.11.2016
comment
@JustCoder ... Также я не понимаю, использовать ли hive-site.xml или нет. И если я не буду его использовать, то какие будут мои учетные данные и какой будет мой каталог spark-warehouse, доступ к которому будет осуществляться в моем инструменте BI? - person Bhanuday Birla; 24.11.2016
comment
По умолчанию spark использует эту папку /usr/hive/warehouse/ для всех запросов, связанных с ульем, и /usr/hive/warehouse/records для хранения файлов, которые будут запрашиваться позже. Рекомендуется настроить hive-ste.xml на локальное хранилище в качестве файловой системы и режима одиночного процесса для выполнения. - person JustCoder; 24.11.2016
comment
@JustCoder. Power BI использует http://example.com:10000/cliservice в качестве примера для сервера. 10000 — это порт сервера Hive по умолчанию. Можно ли его использовать для http? - person Tom; 24.05.2018