Вопросы по теме 'spark-submit'
Apache Spark с использованием spark-submit выдает NoSuchMethodError
Чтобы отправить приложение Spark в кластер, их документация отмечает:
Для этого создайте сборочный jar (или «uber» jar), содержащий ваш код и его зависимости. И sbt, и Maven имеют плагины сборки. При создании JAR-файлов сборки укажите Spark и...
2040 просмотров
schedule
05.09.2022
Как отправить файл python в spark 2.1.0?
В настоящее время я запускаю искру 2.1.0. Большую часть времени я работал в оболочке PYSPARK, но мне нужно отправить файл python с искрой (аналогично jar-отправке с искрой в java). Как вы это делаете в питоне?
17869 просмотров
schedule
22.10.2022
Отправка файла Python и jar-файлов Java в Spark - Ошибка: в JAR не задан основной класс; укажите один с помощью --class
Мне нужно выполнить файл python с пользовательскими функциями Java, используя py4j. Я использую команду spark-submit для отправки файлов pyfiles и jar исполнителям. Код, который я написал для Py4j, сделает все остальное.
Однако я получил ошибку...
1254 просмотров
schedule
22.04.2022
ClassNotFoundException scala.runtime.LambdaДесериализовать при отправке искры
Я следую руководству по Scala на https://spark.apache.org/docs/2.1.0/quick-start.html
Мой скала-файл
/* SimpleApp.scala */
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
object...
5779 просмотров
schedule
05.09.2023
искровая модель трубопровода
У меня есть кластер Apache Spark (1 мастер + 1 рабочий), работающий на докере, я могу отправить задание, используя spark-submit , который подходит для конвейера, а затем он сохраняется (PipelineModel.save(path)). Файл сохраняется на моем локальном...
397 просмотров
schedule
02.07.2023
Приложение Spark не читает log4j.properties, присутствующие в Jar
Я использую MapR5.2 - Spark версии 2.1.0, и я запускаю свою банку приложения Spark в режиме кластера пряжи.
Я перепробовал все доступные варианты, которые нашел, но не смог.
Это наша производственная среда. Но мне это нужно для моей конкретной...
3285 просмотров
schedule
24.01.2023
Могут ли num-executors переопределить динамическое распределение в spark-submit
Может ли указание количества исполнителей в команде spark-submit переопределить уже включенное динамическое распределение (spark.dynamicAllocation.enable true)?
4990 просмотров
schedule
30.07.2022
класс spark-submit не найден в spark 2.2.0
Команда отправки искры:
/opt/cmsgraph/spark/default/bin/spark-submit -v \
--driver-java-options -Djava.io.tmpdir=/opt/cmsgraph/temp
--conf spark.cassandra.connection.timeout_ms=60000 \
--conf spark.cassandra.input.fetch.size_in_rows=1 \
--conf...
177 просмотров
schedule
06.06.2023
Нет такого файла или каталога в режиме искрового кластера
Я пишу приложение для потоковой передачи искр с использованием pyspark, которое в основном обрабатывает данные.
Краткий обзор упаковки: это приложение содержит несколько модулей и некоторые файлы конфигурации, которые не являются файлами .py...
1384 просмотров
schedule
06.05.2023
spark-submit с ошибкой Mahout в режиме кластера (Scala/java)
Я пытаюсь создать базовый рекомендатор с помощью Spark и Mahout на Scala. Я использую репозиторий Follow mahout для компиляции mahout со scala 2.11 и spark 2.1.2 mahout_fork
Чтобы выполнить свой код, я использую spark-submit, и он работает...
210 просмотров
schedule
01.06.2024
Cucumber-Hadoop: как читать файлы функций огурца из местоположения HDFS?
Я использую метод import cucumber.api.cli.Main для вызова основного метода огурца, например
Main.main(
Array(glue,gluePath,tag,tagName,plugin,pluginNameAndPath,
"hdfs:///user/test/hdfs.feature"))
Можно ли читать файлы функций из...
154 просмотров
schedule
07.09.2022
spark-submit не работает при параллельной отправке нескольких заданий
У меня есть приложение Spark, которое мне нужно применить к разным файлам и получить результат как можно быстрее, поэтому для этого я создал модуль Python, который подготовит файлы, а затем запустит различные задания Spark-Submits.
Прежде чем...
49 просмотров
schedule
07.06.2024
Удалите JAR из пути к классам по умолчанию Spark в EMR
Я выполняю сценарий отправки искры на этапе EMR, в котором мой супер-JAR является основным классом, например
spark-submit \
....
--class ${MY_CLASS} "${SUPER_JAR_S3_PATH}"
... так далее
но Spark по умолчанию загружает файл jar:...
1322 просмотров
schedule
08.05.2023
Как я могу запустить задание pyspark на k8s?
Я пытаюсь запустить приложение hello world spark на кластере k8s. Я создал свой собственный образ докера со скриптом поверх стандартного образа докера pyspark, и теперь я пытаюсь запустить этот образ в кластере k8s, но получаю следующую ошибку....
844 просмотров
schedule
02.07.2023
Как отправить задание SPARK, jar которого размещен в хранилище объектов S3
У меня есть кластер SPARK с Yarn, и я хочу поместить jar своей работы в S3, на 100% совместимое хранилище объектов. Если я хочу отправить задание, я ищу в Google и, кажется, просто так: spark-submit --master yarn --deploy-mode cluster ‹...другие...
1094 просмотров
schedule
17.01.2023
Spark-Submit FileNotFoundException, когда я передаю аргумент
Я запускаю толстый файл jar (сгенерированный с помощью сборки sbt) с помощью spark-submit. Это основная часть файла scala:
package antarctic
import antarctic.comparison.TablesComparison
import antarctic.utils.Utils.withSpark
import...
114 просмотров
schedule
25.02.2023
java.lang.IllegalArgumentException: слишком большой кадр: 5211883372140375593
Я отправил свой код в кластер для запуска, но обнаружил следующую ошибку.
'' 'java.lang.IllegalArgumentException: слишком большой кадр: 5211883372140375593 в org.sparkproject.guava.base.Preconditions.checkArgument (Preconditions.java:119) в...
710 просмотров
schedule
04.05.2022
отправить задание с пандами в zip-файле
У меня есть две библиотеки: Pandas и utils (моя библиотека), и я хочу импортировать их в свой код. Поскольку я тестировал Pandas, он тоже не работает.
Используя boto3 и requests (без предварительной установки в кластере), он работает, создавая...
138 просмотров
schedule
05.07.2023
Spark на EMR-5.32.0 не порождает запрошенных исполнителей
Я столкнулся с некоторыми проблемами в (Py) Spark on EMR (выпуск 5.32.0). Примерно год назад я запустил ту же программу на кластере EMR (я думаю, что выпуск должен был быть 5.29.0). Затем я смог правильно настроить свою программу PySpark, используя...
548 просмотров
schedule
10.07.2023
Как использовать Spark-Submit для запуска файла scala, присутствующего на главном узле кластера EMR?
Итак, я подключаюсь к главному узлу кластера EMR с помощью SSH. Это файловая структура, присутствующая в главном узле:
|-- AnalysisRunner.scala
|-- AutomatedConstraints.scala
|-- deequ-1.0.1.jar
|-- new
| |-- Auto.scala
| `-- Veri.scala
|--...
122 просмотров
schedule
13.03.2024