Да, время обучения зависит от размера партии.
Оптимальный размер пакета зависит от типа данных и общего объема данных.
В идеальном случае лучше всего подходит размер пакета, равный 1, но на практике с большими объемами данных такой подход неосуществим. < br /> Я думаю, вам нужно сделать это путем экспериментов, потому что вы не можете легко вычислить оптимальное значение.
Более того, при изменении размера пакета вы, возможно, захотите также изменить скорость обучения, чтобы сохранить контроль над процессом.
Но действительно, имея инструмент для поиска оптимального пакета (по памяти и времени) размер довольно интересный.
Что такое стохастический градиентный спуск?
Стохастический градиентный спуск, часто сокращенно SGD, представляет собой вариант алгоритма градиентного спуска, который вычисляет ошибку и обновляет модель для каждого примера в наборе обучающих данных.
Обновление модели для каждого обучающего примера означает, что стохастический градиентный спуск часто называют онлайн-алгоритмом машинного обучения.
Что такое пакетный градиентный спуск?
Пакетный градиентный спуск - это вариант алгоритма градиентного спуска, который вычисляет ошибку для каждого примера в наборе обучающих данных, но обновляет модель только после того, как были оценены все обучающие примеры.
Один цикл по всему набору обучающих данных называется эпохой обучения. Поэтому часто говорят, что пакетный градиентный спуск выполняет обновления модели в конце каждой эпохи обучения.
Что такое мини-пакетный градиентный спуск?
Мини-пакетный градиентный спуск - это вариант алгоритма градиентного спуска, который разбивает обучающий набор данных на небольшие пакеты, которые используются для вычисления ошибки модели и обновления коэффициентов модели.
Реализации могут выбрать суммирование градиента по мини-пакету или усреднение градиента, что дополнительно снижает дисперсию градиента.
Мини-пакетный градиентный спуск стремится найти баланс между надежностью стохастического градиентного спуска и эффективностью пакетного градиентного спуска. Это наиболее распространенная реализация градиентного спуска, используемая в области глубокого обучения.
Источник: https://machinelearningmaster.com/gentle-introduction-mini-batch-gradient-descent-configure-batch-size/
person
Antoan Milkov
schedule
26.03.2019