Я кратко опишу свой вариант использования: предположим, что я хотел развернуть кластер с 10 рабочими на AWS: в прошлом я всегда использовал параметры initial_workers: 10
, min_workers: 0
, max_workers: 10
(cluster.yaml
), чтобы сначала развернуть кластер на полную мощность, а затем использовать автоматизированные уменьшение размера кластера в зависимости от времени простоя. Таким образом, в конце работы, когда почти все испытания были прекращены и полная мощность кластера больше не нужна, узлы автоматически удаляются. Теперь, когда параметр initial_workers
пропал, # 12444, мне это не совсем понятно как добиться того же поведения при уменьшении масштаба.
Я экспериментировал с программным способом запроса ресурсов (ray.autoscaler.sdk.request_resources
) до и после tune.run
, но, похоже, это то же самое, что и установка поля min_workers
, и я могу уменьшить масштаб кластера только после завершения всех заданий. Я также пытался установить upscaling_speed
, но по какой-то причине масштабирование происходит очень медленно и, кажется, добавляется только один узел за раз (я запрашиваю графические процессоры). Также всегда есть только одна незавершенная задача, которую я еще не совсем понимаю (к сожалению, у меня также действительно нет времени, чтобы исследовать это полностью :()
В настоящее время я использую описанный выше программный способ, который отлично работает, но в конце задания у меня остается много свободных ресурсов, которые выполняются часами, прежде чем я смогу уменьшить масштаб.
Было бы здорово, если бы кто-нибудь мог указать мне правильное направление, чтобы решить эту проблему.
Спасибо