С точки зрения эффективности масштабирования мы оцениваем gTop-k на кластере с 32 машинами GPU, которые соединены между собой Ethernet 1 Гбит/с. Экспериментальные результаты показывают, что наш метод обеспечивает эффективность масштабирования в 2,7–12 раз выше, чем S-SGD, и в 1,1–1,7 раза лучше, чем существующий S-SGD Top-k.

Распределенный синхронный стохастический градиентный спуск (S-SGD) широко используется при обучении крупномасштабных глубоких нейронных сетей (DNN), но обычно требует очень высокой пропускной способности связи между вычислительными работниками (например, графическими процессорами) для итеративного обмена градиентами. Недавно были предложены методы разрежения Top-k для уменьшения объема данных, которыми должны обмениваться работники. Разрежение Top-k может обнулить значительную часть градиентов, не влияя на сходимость модели. Однако разреженные градиенты должны передаваться с их нерегулярными индексами, что затрудняет агрегацию разреженных градиентов. Текущие методы, использующие AllGather для накопления разреженных градиентов, имеют сложность связи O(kP), где P — количество рабочих процессов, что неэффективно в сетях с низкой пропускной способностью и большим количеством рабочих процессов. Мы заметили, что не все градиенты top-k от P-воркеров необходимы для обновления модели, и поэтому мы предлагаем новый глобальный механизм разрежения Top-k (gTop-k) для решения этой проблемы. В частности, мы выбираем глобальные топ-k самых больших абсолютных значений градиентов от P рабочих вместо того, чтобы накапливать все локальные топ-k градиентов для обновления модели на каждой итерации. Метод градиентной агрегации, основанный на разрежении gTop-k, снижает сложность связи с O(kP) до O(klogP). С помощью обширных экспериментов с различными DNN мы убедились, что gTop-k S-SGD имеет почти согласованную производительность сходимости с S-SGD и имеет лишь незначительное ухудшение производительности обобщения. С точки зрения эффективности масштабирования мы оцениваем gTop-k на кластере с 32 машинами GPU, которые соединены между собой Ethernet 1 Гбит/с. Экспериментальные результаты показывают, что наш метод обеспечивает эффективность масштабирования в 2,7–12 раз выше, чем S-SGD, и в 1,1–1,7 раза лучше, чем существующий S-SGD Top-k.

Ссылка на документ: https://arxiv.org/abs/1901.04359

PDF: https://arxiv.org/pdf/1901.04359.pdf