Вопросы по теме 'spark-submit'

Apache Spark с использованием spark-submit выдает NoSuchMethodError
Чтобы отправить приложение Spark в кластер, их документация отмечает: Для этого создайте сборочный jar (или «uber» jar), содержащий ваш код и его зависимости. И sbt, и Maven имеют плагины сборки. При создании JAR-файлов сборки укажите Spark и...
2040 просмотров

Как отправить файл python в spark 2.1.0?
В настоящее время я запускаю искру 2.1.0. Большую часть времени я работал в оболочке PYSPARK, но мне нужно отправить файл python с искрой (аналогично jar-отправке с искрой в java). Как вы это делаете в питоне?
17869 просмотров

Отправка файла Python и jar-файлов Java в Spark - Ошибка: в JAR не задан основной класс; укажите один с помощью --class
Мне нужно выполнить файл python с пользовательскими функциями Java, используя py4j. Я использую команду spark-submit для отправки файлов pyfiles и jar исполнителям. Код, который я написал для Py4j, сделает все остальное. Однако я получил ошибку...
1254 просмотров
schedule 22.04.2022

ClassNotFoundException scala.runtime.LambdaДесериализовать при отправке искры
Я следую руководству по Scala на https://spark.apache.org/docs/2.1.0/quick-start.html Мой скала-файл /* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object...
5779 просмотров
schedule 05.09.2023

искровая модель трубопровода
У меня есть кластер Apache Spark (1 мастер + 1 рабочий), работающий на докере, я могу отправить задание, используя spark-submit , который подходит для конвейера, а затем он сохраняется (PipelineModel.save(path)). Файл сохраняется на моем локальном...
397 просмотров

Приложение Spark не читает log4j.properties, присутствующие в Jar
Я использую MapR5.2 - Spark версии 2.1.0, и я запускаю свою банку приложения Spark в режиме кластера пряжи. Я перепробовал все доступные варианты, которые нашел, но не смог. Это наша производственная среда. Но мне это нужно для моей конкретной...
3285 просмотров
schedule 24.01.2023

Могут ли num-executors переопределить динамическое распределение в spark-submit
Может ли указание количества исполнителей в команде spark-submit переопределить уже включенное динамическое распределение (spark.dynamicAllocation.enable true)?
4990 просмотров
schedule 30.07.2022

класс spark-submit не найден в spark 2.2.0
Команда отправки искры: /opt/cmsgraph/spark/default/bin/spark-submit -v \ --driver-java-options -Djava.io.tmpdir=/opt/cmsgraph/temp --conf spark.cassandra.connection.timeout_ms=60000 \ --conf spark.cassandra.input.fetch.size_in_rows=1 \ --conf...
177 просмотров
schedule 06.06.2023

Нет такого файла или каталога в режиме искрового кластера
Я пишу приложение для потоковой передачи искр с использованием pyspark, которое в основном обрабатывает данные. Краткий обзор упаковки: это приложение содержит несколько модулей и некоторые файлы конфигурации, которые не являются файлами .py...
1384 просмотров

spark-submit с ошибкой Mahout в режиме кластера (Scala/java)
Я пытаюсь создать базовый рекомендатор с помощью Spark и Mahout на Scala. Я использую репозиторий Follow mahout для компиляции mahout со scala 2.11 и spark 2.1.2 mahout_fork Чтобы выполнить свой код, я использую spark-submit, и он работает...
210 просмотров

Cucumber-Hadoop: как читать файлы функций огурца из местоположения HDFS?
Я использую метод import cucumber.api.cli.Main для вызова основного метода огурца, например Main.main( Array(glue,gluePath,tag,tagName,plugin,pluginNameAndPath, "hdfs:///user/test/hdfs.feature")) Можно ли читать файлы функций из...
154 просмотров
schedule 07.09.2022

spark-submit не работает при параллельной отправке нескольких заданий
У меня есть приложение Spark, которое мне нужно применить к разным файлам и получить результат как можно быстрее, поэтому для этого я создал модуль Python, который подготовит файлы, а затем запустит различные задания Spark-Submits. Прежде чем...
49 просмотров

Удалите JAR из пути к классам по умолчанию Spark в EMR
Я выполняю сценарий отправки искры на этапе EMR, в котором мой супер-JAR является основным классом, например spark-submit \ .... --class ${MY_CLASS} "${SUPER_JAR_S3_PATH}" ... так далее но Spark по умолчанию загружает файл jar:...
1322 просмотров
schedule 08.05.2023

Как я могу запустить задание pyspark на k8s?
Я пытаюсь запустить приложение hello world spark на кластере k8s. Я создал свой собственный образ докера со скриптом поверх стандартного образа докера pyspark, и теперь я пытаюсь запустить этот образ в кластере k8s, но получаю следующую ошибку....
844 просмотров

Как отправить задание SPARK, jar которого размещен в хранилище объектов S3
У меня есть кластер SPARK с Yarn, и я хочу поместить jar своей работы в S3, на 100% совместимое хранилище объектов. Если я хочу отправить задание, я ищу в Google и, кажется, просто так: spark-submit --master yarn --deploy-mode cluster ‹...другие...
1094 просмотров
schedule 17.01.2023

Spark-Submit FileNotFoundException, когда я передаю аргумент
Я запускаю толстый файл jar (сгенерированный с помощью сборки sbt) с помощью spark-submit. Это основная часть файла scala: package antarctic import antarctic.comparison.TablesComparison import antarctic.utils.Utils.withSpark import...
114 просмотров
schedule 25.02.2023

java.lang.IllegalArgumentException: слишком большой кадр: 5211883372140375593
Я отправил свой код в кластер для запуска, но обнаружил следующую ошибку. '' 'java.lang.IllegalArgumentException: слишком большой кадр: 5211883372140375593 в org.sparkproject.guava.base.Preconditions.checkArgument (Preconditions.java:119) в...
710 просмотров
schedule 04.05.2022

отправить задание с пандами в zip-файле
У меня есть две библиотеки: Pandas и utils (моя библиотека), и я хочу импортировать их в свой код. Поскольку я тестировал Pandas, он тоже не работает. Используя boto3 и requests (без предварительной установки в кластере), он работает, создавая...
138 просмотров

Spark на EMR-5.32.0 не порождает запрошенных исполнителей
Я столкнулся с некоторыми проблемами в (Py) Spark on EMR (выпуск 5.32.0). Примерно год назад я запустил ту же программу на кластере EMR (я думаю, что выпуск должен был быть 5.29.0). Затем я смог правильно настроить свою программу PySpark, используя...
548 просмотров

Как использовать Spark-Submit для запуска файла scala, присутствующего на главном узле кластера EMR?
Итак, я подключаюсь к главному узлу кластера EMR с помощью SSH. Это файловая структура, присутствующая в главном узле: |-- AnalysisRunner.scala |-- AutomatedConstraints.scala |-- deequ-1.0.1.jar |-- new | |-- Auto.scala | `-- Veri.scala |--...
122 просмотров