Распределенное обучение с Tensorflow в AMLS

с помощью оценщика TensorFlow в службе машинного обучения Azure со следующей конфигурацией.

from azureml.core.runconfig import TensorflowConfiguration
distributed_training = TensorflowConfiguration()
distributed_training.worker_count = 3
est = TensorFlow(source_directory=script_folder,
             script_params=script_params,
             compute_target=compute_target,
             node_count=4,
             distributed_training=distributed_training,
             use_gpu=True,
             entry_script=train_script)
run = exp.submit(est)

Похоже, что при запуске с этой конфигурацией отдельные рабочие придумывают свои собственные экземпляры обученных моделей и пытаются зарегистрировать модель несколько раз. Должен ли я иметь дело с распределенным обучением в сценарии обучения Tensorflow?

azure-machine-learning-service distributed-computing tensorflow-estimator

Fariba Haddadi 12.09.2019 источник

Ответы (1)

arrow_upward
0
arrow_downward

Вам нужно будет обработать сохранение модели в сценарии обучения: собрать коэффициенты модели для одного ранга и сохранить их в файл из этого ранга.

Затем вы можете зарегистрировать модель вне обучающего сценария, используя run.register_model и передав папку / файл сохраненной модели в качестве аргумента.

Roope Astala - MSFT 12.09.2019

Распределенное обучение с Tensorflow в AMLS

Ответы (1)

Вопросы по теме