Запуск задания PySpark 2 на EMR 5.1.0 в качестве шага. Даже после завершения сценария с файлом _SUCCESS
, записанным в S3, и пользовательским интерфейсом Spark, показывающим задание как завершенное, EMR по-прежнему показывает шаг как «Выполняется». Я ждал больше часа, чтобы убедиться, что Spark просто пытается очиститься, но этот шаг никогда не отображается как «Завершено». Последнее, что написано в логах:
INFO MultipartUploadOutputStream: close closed:false s3://mybucket/some/path/_SUCCESS
INFO DefaultWriterContainer: Job job_201611181653_0000 committed.
INFO ContextCleaner: Cleaned accumulator 0
У меня не было этой проблемы со Spark 1.6. Я пробовал кучу разных банок hadoop-aws
и aws-java-sdk
безрезультатно.
Я использую конфигурации Spark 2.0 по умолчанию, поэтому я не думаю, что записывается что-то еще, например метаданные. Кроме того, размер данных, похоже, не влияет на эту проблему.