1. Скорости сходимости для импульсного стохастического градиентного спуска с шумом типа машинного обучения (arXiv)

Автор : Бенджамин Гесс, Себастьян Кассинг.

Аннотация :: Мы рассматриваем схему стохастического градиентного спуска по импульсу (MSGD) и ее непрерывный во времени аналог в контексте невыпуклой оптимизации. Мы показываем почти наверняка экспоненциальную сходимость значения целевой функции для целевых функций, которые являются липшицевыми и удовлетворяют неравенству Поляка-Лоясевича в соответствующей области, а также при предположениях о стохастическом шуме, которые мотивированы перепараметризованными приложениями обучения с учителем. Кроме того, мы оптимизируем скорость сходимости по набору параметров трения и показываем, что процесс MSGD сходится почти наверное.

2. Дрейф представления, вызванный стохастическим градиентным спуском, в двухслойной нейронной сети (arXiv)

Автор : Фархад Пашаханлоо, Алексей Кулаков

Аннотация: Репрезентативный дрейф относится к изменениям нейронной активации с течением времени, сопровождающимся стабильным выполнением задачи. Несмотря на то, что они наблюдаются в мозгу и в искусственных сетях, механизмы дрейфа и его последствия до конца не изучены. Вдохновленные недавними экспериментальными данными о зависимом от стимула дрейфе в грушевидной коре, мы используем теорию и моделирование для изучения этого явления в двухслойной линейной сети с прямой связью. В частности, в сценарии непрерывного обучения мы изучаем дрейф, вызванный шумом, присущим стохастическому градиентному спуску (SGD). Разбивая динамику обучения на нормальное и касательное пространства многообразия с минимальными потерями, мы показываем, что первое соответствует флуктуации с конечной дисперсией, а второе можно рассматривать как эффективный процесс диффузии на многообразии. Мы аналитически вычисляем флуктуацию и коэффициенты диффузии для представлений стимулов в скрытом слое в зависимости от параметров сети и входного распределения. Кроме того, в соответствии с экспериментами мы показываем, что скорость дрейфа ниже для более часто предъявляемого стимула. В целом, наш анализ дает теоретическую основу для лучшего понимания явления дрейфа в биологических и искусственных нейронных сетях.