Я заинтересован в тестировании кластера Hadoop на определенных этапах выполнения MapReduce. То есть я хотел бы четкого разделения между фазой карты, фазой перемешивания и фазой редукции.
Есть ли способ воздержаться от перетасовки или сокращения чего-либо до завершения всех задач карты, а также воздержаться от сокращения до тех пор, пока не будут завершены все перетасовки? Меня не волнует влияние на время выполнения, потому что меня интересует только потребление ресурсов на каждом из этих этапов.
Я видел еще один пост SO о разделении задач на определенных узлах путем установки mapred.tasktracker.reduce.tasks.maximum
на 0
на узлах, которые не должны уменьшаться, и mapred.tasktracker.map.tasks.maximum
на 0
на узлах, которые не должны сопоставляться, но в этом случае задачи сопоставления и сокращения по-прежнему выполняются одновременно, и я m также не может использовать мой полный кластер для каждой фазы.
Спасибо!