Spark step на EMR просто зависает как Running после завершения записи в S3

Запуск задания PySpark 2 на EMR 5.1.0 в качестве шага. Даже после завершения сценария с файлом _SUCCESS, записанным в S3, и пользовательским интерфейсом Spark, показывающим задание как завершенное, EMR по-прежнему показывает шаг как «Выполняется». Я ждал больше часа, чтобы убедиться, что Spark просто пытается очиститься, но этот шаг никогда не отображается как «Завершено». Последнее, что написано в логах:

INFO MultipartUploadOutputStream: close closed:false s3://mybucket/some/path/_SUCCESS
INFO DefaultWriterContainer: Job job_201611181653_0000 committed.
INFO ContextCleaner: Cleaned accumulator 0

У меня не было этой проблемы со Spark 1.6. Я пробовал кучу разных банок hadoop-aws и aws-java-sdk безрезультатно.

Я использую конфигурации Spark 2.0 по умолчанию, поэтому я не думаю, что записывается что-то еще, например метаданные. Кроме того, размер данных, похоже, не влияет на эту проблему.


person Kamil Sindi    schedule 18.11.2016    source источник


Ответы (2)


Если вы еще этого не сделали, вам следует закрыть искровой контекст.

sc.stop()

Кроме того, если вы просматриваете веб-интерфейс Spark через браузер, вам следует закрыть его, так как он иногда поддерживает контекст искры. Я помню, что видел это в списке рассылки разработчиков искры, но не могу найти для этого jira.

person J Maurer    schedule 19.11.2016

Мы столкнулись с этой проблемой и решили ее, запустив задание в режиме развертывания кластера, используя следующую опцию spark-submit:

spark-submit --deploy-mode cluster 

Это было как-то связано с тем, что при работе в клиентском режиме драйвер запускается в главном экземпляре, и процесс отправки искры зависает, несмотря на закрытие контекста искры искры. Это приводило к тому, что контроллер экземпляра постоянно опрашивал процесс, так как он никогда не получал сигнал завершения. Запуск драйвера на одном из узлов экземпляра с использованием вышеуказанного параметра, по-видимому, не вызывает этой проблемы. Надеюсь это поможет

person randal25    schedule 06.02.2018
comment
В моем случае работа с кластером в режиме развертывания не помогла. - person yardstick17; 06.02.2019