Какая настройка необходима для использования Spark Cassandra Connector с сервером заданий Spark

Я работаю со Spark и Cassandra, и в целом все просто и работает, как задумано; в частности, искровая оболочка и запущенные процессы .scala для получения результатов.

Сейчас я рассматриваю возможность использования сервера заданий Spark; У меня запущен сервер заданий, и он работает, как и ожидалось, как для тестовых элементов, так и для некоторых начальных, простых разработанных .scala.

Однако теперь я хочу взять одну из программ .scala, которая работает в spark-shell, и загрузить ее на сервер заданий Spark для доступа через этот механизм. Проблема, с которой я столкнулся, заключается в том, что сервер заданий, похоже, не распознает операторы импорта вокруг cassandra и не может создать (компилировать sbt; пакет sbt) банку для загрузки на сервер заданий.

На каком-то уровне это просто выглядит так, как будто мне нужен сервер заданий, эквивалентный переключателю пакета оболочки spark (--packages datastax:spark-cassandra-connector:2.0.1-s_2.11) на сервере заданий Spark, чтобы импортировать com.datastax .spark.connector._ и аналогичный код в файлах .scala будут работать.

В настоящее время, когда я пытаюсь выполнить сборку (sbt complie), я получаю сообщение, например: [ошибка] /home/SparkCassandraTest.scala:10: объект datastax не является членом пакета com [ошибка] import com.datastax.spark.connector._

Я добавил различные элементы в файл build.sbt на основе результатов поиска и советов на доске объявлений; но никаких реальных изменений; если это ответ, я после того, что нужно добавить к базовому серверу заданий, чтобы включить это использование соединителя cassandra.


person ChrisHDog    schedule 07.12.2017    source источник
comment
Вы хотите запускать несколько программ, использующих Cassandra? Или только один? Вы пытались упаковать свой код в толстую банку через sbt assembly и отправить?   -  person Alex Ott    schedule 07.12.2017
comment
не уверен... я просто хочу создать простую scala, которая подключается к Cassandra и считывает некоторые данные, чтобы я мог подтвердить, что она работает, а затем подумать о том, что я хочу сделать оттуда... я бы хотел создать банку что я могу использовать команды curl для загрузки на сервер заданий spark, а затем вызывать их оттуда   -  person ChrisHDog    schedule 13.12.2017
comment
К сожалению, я не знаком с сервером заданий, но похоже, что в ваших инструкциях по упаковке отсутствует зависимость от cassandra...   -  person Alex Ott    schedule 13.12.2017
comment
Это звучит правильно (т.е. зависимость от cassandra не подхватывается); что мне нужно сделать в IntelliJ, чтобы это произошло?   -  person ChrisHDog    schedule 14.12.2017


Ответы (1)


Я думаю, что для этого вам понадобится spark-submit. Я также работаю со Spark и Cassandra, но только с одного месяца; поэтому мне нужно было прочитать много информации. Я собрал эту информацию в репозиторий, возможно, это могло бы вам помочь, однако это альфа-версия, извините за это.

person Juan Antonio Aguilar    schedule 05.01.2018