1. Тренировка нормализованного стохастического градиентного спуска глубоких нейронных сетей(arXiv)

Автор:Салих Атичи, Хонги Пан, Ахмет Энис Четин

Аннотация. В этой статье мы представляем новый алгоритм оптимизации для обучения модели машинного обучения под названием «Нормализованный стохастический градиентный спуск» (NSGD), вдохновленный нормализованным методом наименьших средних квадратов (NLMS) из адаптивной фильтрации. Когда мы обучаем модель высокой сложности на большом наборе данных, скорость обучения очень важна, поскольку плохой выбор параметров оптимизатора может привести к расхождению. Алгоритм обновляет новый набор весов сети с использованием стохастического градиента, но с нормализацией на основе ℓ1 и ℓ2 для параметра скорости обучения, аналогичного алгоритму NLMS. Наше главное отличие от существующих методов нормализации заключается в том, что мы не включаем член ошибки в процесс нормализации. Мы нормализуем термин обновления, используя входной вектор для нейрона. Наши эксперименты показывают, что модель можно обучить до более высокого уровня точности при различных начальных настройках, используя наш алгоритм оптимизации. В этой статье мы демонстрируем эффективность нашего алгоритма обучения с использованием ResNet-20 и игрушечной нейронной сети на разных наборах эталонных данных с разными инициализациями. NSGD повышает точность ResNet-20 с 91,96% до 92,20% в базе данных CIFAR-10.

2.Новый алгоритм стохастического градиентного спуска для изучения основных подпространств(arXiv)

Автор: Шарлин Ле Лан, Джошуа Гривз, Джесси Фарбратер, Марк Роуленд, Фабиан Педрегоса, Ришаб Агарвал, Марк Г. Беллемаре.

Аннотация. Многие задачи машинного обучения кодируют свои данные в виде матрицы с, возможно, очень большим количеством строк и столбцов. В некоторых приложениях, таких как нейробиология, сжатие изображений или глубокое обучение с подкреплением, главное подпространство такой матрицы обеспечивает полезное низкоразмерное представление отдельных данных. Здесь нас интересует определение d-мерного главного подпространства данной матрицы из выборочных элементов, то есть из малых случайных подматриц. Хотя для этой задачи существует ряд методов, основанных на выборке (например, правило Ойи \citep{oja1982simplified}), они предполагают доступ ко всем столбцам матрицы или определенной матричной структуре, такой как симметрия, и не могут быть объединены как есть с нейронными сетями \ citep{baldi1989neural}. В этой статье мы выводим алгоритм, который изучает главное подпространство из выборочных записей, может применяться, когда приближенное подпространство представлено нейронной сетью, и, следовательно, может быть масштабирован для наборов данных с фактически бесконечным числом строк и столбцов. Наш метод состоит в определении функции потерь, минимизатором которой является искомое главное подпространство, и построении градиентной оценки этой потери, смещение которой можно контролировать. Мы дополняем наш теоретический анализ серией экспериментов с синтетическими матрицами, набором данных MNIST \citep{lecun2010mnist} и областью обучения с подкреплением PuddleWorld \citep{sutton1995generalization}, демонстрируя полезность нашего подхода.