Введение

Основное внимание в этой статье уделяется пониманию модели градиентной эпизодической памяти (GEM), предложенной Lopez-Paz et al. Мы сосредоточимся на понимании того, как модель решает проблему катастрофического забывания, как создать набор данных, который ближе к реальному сценарию, и как определить точность модели. Мы также внимательно изучаем функции, которые авторы использовали для понимания деталей реализации модели.

Обзор модели

Лопес-Пас и др.. предложил модель, которая обходит ограничения, налагаемые минимизацией эмпирического риска (ERM) на другие методы обучения под наблюдением. В ERM предиктор f находится путем минимизации

— функция потерь, штрафующая за ошибки предсказания.

ERM зависит от предположения, что каждый обучающий пример (xᵢ,yᵢ) представляет собой идентично и независимо распределенную (iid) выборку из фиксированной вероятности распределение P, описывающее одну учебную задачу. Однако предположение iid неприменимо к процессу обучения человека — в процессе обучения люди наблюдают за данными как за упорядоченной последовательностью, редко наблюдают образец дважды, запоминают только несколько фрагментов данных, а последовательность примеров относится к различным учебным задачам.

Это затрудняет использование принципа ERM, и McCloskey et al. показали, что прямолинейное применение ERM приводит к «катастрофическому забыванию» — после изучения новых задач учащийся забывает, как решать предыдущие задачи.

Данные

В этой статье используется повернутая версия набора данных MNIST. Однако, чтобы продемонстрировать, что предложенная модель GEM хорошо работает для сценариев обучения, более похожих на человека, создается континуум повернутого набора данных.

Этот континуум состоит из векторов признаков (изображений)

целевые векторы (метки)

и дескриптор задачи

который идентифицирует задачу, связанную с парой

Что еще более важно, примеры не взяты iid из фиксированного распределения вероятностей по триплетам (x,t,y), т. е. возможно понаблюдайте за последовательностью примеров из конкретной задачи, прежде чем переключиться на другую задачу.

Тестовый набор также берется из континуума, где тестовая пара (x,y)∼ Pₜ может принадлежать задаче, которая наблюдалась в прошлом, или текущей задаче. задача, которая изучается (этот тестовый набор будет использоваться для определения средней точности и передачи знаний), или задача, которая ранее не наблюдалась. В этом проекте дескрипторы задач представляют собой целые числа tᵢ = i ∈ Z. В более общем случае дескриптор задачи может представлять собой абзац на естественном языке, объясняющий, как решить i-ю задачу. Эти богатые дескрипторы задач могут обеспечить нулевое обучение на основе предполагаемых отношений между задачами.

Чтобы смоделировать «более человеческую» настройку, модель обучается с использованием i) меньшего количества обучающих примеров для каждой задачи, ii) большого количества задач, iii) каждый обучающий пример, относящийся к каждой задаче, наблюдается только один раз, и iv) оба передача знаний и забывание измеряются. Каждый обучающий пример представлен в виде триплета (xᵢ,tᵢ,yᵢ), и задачи передаются последовательно, но не в каком-либо определенном порядке.

Модель

Сетевая архитектура

Используемая нейронная сеть имеет 2 скрытых слоя единиц ReLU, а веса инициализируются с использованием схемы «He Weight Initialization» (вариант «Xavier Initialization», адаптированный для ReLU). Стохастический градиентный спуск (SGD) и кросс-энтропийные потери используются для обучения сети.

Эпизодическая память

Чтобы сократить разрыв между ERM и более человеческим процессом обучения, модель GEM включает в себя эпизодическую память Mₜ, в которой хранится подмножество наблюдаемые примеры из задачи t.

Объем памяти ограничен общим числом ячеек M, при этом каждая задача имеет

воспоминания (m может меняться по мере появления новых задач). Примеры, хранящиеся в M, используются для поиска предикторов.

путем минимизации следующей функции потерь.

Однако минимизация потерь с использованием только примеров, хранящихся в эпизодической памяти, приводит к переподгонке только к этим примерам, а сохранение неизменности прогнозов прошлых задач путем дистилляции делает невозможным положительный обратный перенос.

GEM преодолевает эту проблему, находя предиктор

для текущей задачи t, изменив параметры так, чтобы потеря текущего предиктора на всех примерах, хранящихся в эпизодической памяти, была меньше или равна потере всех предыдущих предикторы (для всех предыдущих задач) на тех же примерах. Проблема может быть сформулирована как

На первый взгляд кажется, что для этого нужен старый предиктор

для хранения и дополнительной памяти. Однако это не требуется, если вместо этого сохраняются векторы градиента потерь предыдущих задач.

Если одно или несколько ограничений неравенства нарушены, то потеря увеличится как минимум для одной из предыдущих задач после предложенного обновления. В этом случае предлагаемый градиент g может быть спроецирован на ближайший градиент

Таким образом, проблему можно описать как

Вышеупомянутая задача оптимизации является квадратичной, а все ограничения линейными. Это можно решить с помощью метода квадратичного программирования. Упрощение нормы l₂ приводит к следующему.

В поставленной выше задаче переменных будет p, равное количеству параметров нейронной сети. Таких параметров может быть миллион. Однако двойная задача будет иметь только t−1 (количество наблюдаемых задач), что намного меньше, чем p (количество параметров). Двойственность задачи состоит в следующем (доказано Дорном в 1960 г.).

Прогнозируемое обновление градиента

можно восстановить с помощью следующих

Результат

Точность модели вместе с ее обратным переносом измеряется каждый раз, когда она обучается новой задаче. Как обсуждалось ранее, обратный перенос (BWT) — это влияние изучения новой задачи t на производительность предыдущей задачи k‹t. Положительная обратная передача увеличивает производительность некоторой предыдущей задачи k, а отрицательная обратная передача означает обратное. Точно так же положительный прямой перенос (FWT) увеличивает производительность модели для будущей задачи, а отрицательный прямой перенос снижает производительность. Это можно выразить следующим образом.

Вывод

В исходной статье есть детали реализации, необходимые для обучения модели на нужных наборах данных. В этой статье мы не рассматривали эти детали, поскольку они могут варьироваться от приложения к приложению.