Я пытаюсь сначала обучить PPOTrainer на 250 итераций в простой среде, а затем закончить обучение в модифицированной среде. (Единственная разница между средами - это изменение одного из параметров конфигурации среды).
До сих пор я пробовал реализовать следующее:
ray.init()
config = ppo.DEFAULT_CONFIG.copy()
config["env_config"] = defaultconfig
trainer = ppo.PPOTrainer(config=config, env=qsd.QSDEnv)
trainer.config['env_config']['meas_quant']=1
for i in range(250):
result = trainer.train()
#attempt to change the parameter 'meas_quant' from 1 to 2
trainer.config['env_config']['meas_quant'] = 2
trainer.workers.local_worker().env.meas_quant = 2
for i in range(250):
result = trainer.train()
Однако при втором обучении по-прежнему используется исходная конфигурация среды. Любая помощь в выяснении того, как это исправить, будет принята с благодарностью!