Распределенное обучение с Tensorflow в AMLS

с помощью оценщика TensorFlow в службе машинного обучения Azure со следующей конфигурацией.

from azureml.core.runconfig import TensorflowConfiguration
distributed_training = TensorflowConfiguration()
distributed_training.worker_count = 3
est = TensorFlow(source_directory=script_folder,
             script_params=script_params,
             compute_target=compute_target,
             node_count=4,
             distributed_training=distributed_training,
             use_gpu=True,
             entry_script=train_script)
run = exp.submit(est)

Похоже, что при запуске с этой конфигурацией отдельные рабочие придумывают свои собственные экземпляры обученных моделей и пытаются зарегистрировать модель несколько раз. Должен ли я иметь дело с распределенным обучением в сценарии обучения Tensorflow?


person Fariba Haddadi    schedule 12.09.2019    source источник


Ответы (1)


Вам нужно будет обработать сохранение модели в сценарии обучения: собрать коэффициенты модели для одного ранга и сохранить их в файл из этого ранга.

Затем вы можете зарегистрировать модель вне обучающего сценария, используя run.register_model и передав папку / файл сохраненной модели в качестве аргумента.

person Roope Astala - MSFT    schedule 12.09.2019