Я относительно новичок в качестве активного пользователя форума, но сначала должен поблагодарить всех вас за ваш вклад, потому что я много лет искал ответы...
Сегодня у меня вопрос, который никто не решил или я не могу найти...
Я пытаюсь читать файлы параллельно с s3 (AWS) на искру (локальный компьютер) как часть тестовой системы. Я использовал mclapply, но при установке более 1 ядра он терпит неудачу...
Пример: (тот же код работает при использовании одного ядра, но не работает при использовании 2)
new_rdd_global ‹- mclapply(seq(file_paths), function(i){spark_read_parquet(sc, name=paste0("rdd_",i), path=file_paths[i])}, mc.cores = 1)
new_rdd_global ‹- mclapply(seq(file_paths), function(i){spark_read_parquet(sc, name=paste0("rdd_",i), path=file_paths[i])}, mc.cores = 2) Предупреждающее сообщение: в mclapply (seq(file_paths), function(i) { : все запланированные ядра обнаружили ошибки в пользовательском коде
Любое предложение???
Заранее спасибо.