с помощью оценщика TensorFlow в службе машинного обучения Azure со следующей конфигурацией.
from azureml.core.runconfig import TensorflowConfiguration
distributed_training = TensorflowConfiguration()
distributed_training.worker_count = 3
est = TensorFlow(source_directory=script_folder,
script_params=script_params,
compute_target=compute_target,
node_count=4,
distributed_training=distributed_training,
use_gpu=True,
entry_script=train_script)
run = exp.submit(est)
Похоже, что при запуске с этой конфигурацией отдельные рабочие придумывают свои собственные экземпляры обученных моделей и пытаются зарегистрировать модель несколько раз. Должен ли я иметь дело с распределенным обучением в сценарии обучения Tensorflow?