Есть ли в Ray Tune механизм замены initial_workers (cluster.yaml)?

Я кратко опишу свой вариант использования: предположим, что я хотел развернуть кластер с 10 рабочими на AWS: в прошлом я всегда использовал параметры initial_workers: 10, min_workers: 0, max_workers: 10 (cluster.yaml), чтобы сначала развернуть кластер на полную мощность, а затем использовать автоматизированные уменьшение размера кластера в зависимости от времени простоя. Таким образом, в конце работы, когда почти все испытания были прекращены и полная мощность кластера больше не нужна, узлы автоматически удаляются. Теперь, когда параметр initial_workers пропал, # 12444, мне это не совсем понятно как добиться того же поведения при уменьшении масштаба.

Я экспериментировал с программным способом запроса ресурсов (ray.autoscaler.sdk.request_resources) до и после tune.run, но, похоже, это то же самое, что и установка поля min_workers, и я могу уменьшить масштаб кластера только после завершения всех заданий. Я также пытался установить upscaling_speed, но по какой-то причине масштабирование происходит очень медленно и, кажется, добавляется только один узел за раз (я запрашиваю графические процессоры). Также всегда есть только одна незавершенная задача, которую я еще не совсем понимаю (к сожалению, у меня также действительно нет времени, чтобы исследовать это полностью :()

В настоящее время я использую описанный выше программный способ, который отлично работает, но в конце задания у меня остается много свободных ресурсов, которые выполняются часами, прежде чем я смогу уменьшить масштаб.

Было бы здорово, если бы кто-нибудь мог указать мне правильное направление, чтобы решить эту проблему.

Спасибо


person Denis    schedule 25.03.2021    source источник


Ответы (1)


В ray версии 1.30 проблемы с автомасштабированием, которые я наблюдал, кажутся решенными, и теперь кластер масштабируется с ожидаемыми испытаниями, как и ожидалось (с использованием экземпляров AWS ec2 g4dn). Так что больше нет необходимости в опции intial_workers.

person Denis    schedule 26.04.2021