Постоянное обучение

Поскольку сообщество глубокого обучения стремится преодолеть разрыв между человеческим и машинным интеллектом, потребность в агентах, которые могут адаптироваться к непрерывно развивающейся среде, растет как никогда. Это стало очевидным на ICML 2020, на котором были проведены два разных семинара по непрерывному и непрерывному обучению. Как участник, основные выводы, которые я сделал и которые, как я полагаю, повлияют на неизбежные события в этой области, состоят в двух направлениях: производительности, и (б) временно развивающийся агент должен знать семантику задачи. В этом сообщении в блоге я попытаюсь пролить свет на эффективность этих качеств для агентов непрерывного обучения (CL).

[Хотя справочная информация о приведенных выше условиях может помочь, этот пост предназначен для читателей, не знакомых с литературой для непрерывного изучения.]

Напоминание: при поэтапной настройке задач постоянно обучающийся агент на временном шаге 't' обучается распознавать задачи 1, .., t-1, t, в то время как данные для задач 1,…, t-1 могут быть доступны или недоступны. Такая динамика обучения требует преодоления двух основных препятствий. Первым из них является прямой перенос (FT), который измеряет, как постепенное обучение до задачи t влияет на знания агента об этом. С точки зрения производительности, положительный FT предполагает, что агент должен обеспечивать более высокую точность при выполнении задачи t, если ему разрешено изучать ее постепенно с помощью задач 1,…, t -1.

Другой желательной функцией является обратная передача (BT), которая измеряет влияние, которое изучение задачи t оказывает на выполнение предыдущей задачи. Положительный BT означает, что изучение новой задачи t повысит производительность модели по ранее изученным задачам 1,…, t-1 . Этот компромисс между изучением новой задачи и сохранением знаний о ранее изученных задачах называется компромиссом пластичность-стабильность.

Основываясь на шагах, предпринятых во время обучения по возрастающей задаче, литература для непрерывного обучения состоит в основном из двух категорий агентов для решения вышеупомянутого компромисса: (a) агенты, основанные на воспроизведении опыта, обычно хранят ограниченное количество примеров (реальных или генеративных) из предыдущих задач и смешиваем их вместе с обучающими данными новой задачи, и (б) в методах на основе регуляризации используются дополнительные условия потерь для консолидации предыдущих знаний. Помня об этом, давайте теперь погрузимся в настоящие вопросы!

1. Почему методы, основанные на репетициях памяти, работают лучше?

В центре внимания в области CL на ICML 2020 была работа Кноблауха и др., которые с помощью теории множеств показали, что оптимальный алгоритм непрерывного обучения должен решать NP-трудную задачу множества проблема решения пересечения, т.е. для двух задач A и B, она должна различать параметры, которые являются общими для обучения как A, так и B (A ∩ B). Однако определить это по крайней мере так же сложно, как определить, является ли A ∩ B пустым или нет (и, возможно, его можно рассматривать как обобщение проблемы срабатывания множества?), И решение требует идеальной памяти о предыдущей задаче. Примеры.

Такая совершенная память облегчает реконструкцию приближения для совместного распределения по всем наблюдаемым задачам, так что теперь алгоритм эффективно учится решать единственную распределенную во времени задачу, т.е. для временного шага t , это сводится к поиску общих представлений для распределений задач, охватывающих более 1: t. Наша работа на семинаре по CL также отстаивает эмпирическую эффективность основанных на воспроизведении методов в контексте распознавания человеческой деятельности [2].

Наряду с теорией множеств, преимущества воспроизведения можно также рассматривать через динамику параметрического обучения, рассматривая обучение непрерывно как проблему присвоения кредитов. Как мы знаем, градиентный спуск работает путем итеративного обновления параметров нейронной сети с целью минимизировать общие потери в наборе поездов. Таким образом, процесс обучения можно рассматривать как игру в перетягивание каната, в которой целевая функция приводит значения каждого параметра к увеличению или уменьшению, причем большее положительное значение указывает на то, что параметру следует присвоить большее значение и он более важен.

Таким образом, на заданном временном шаге мы можем рассматривать каждую задачу как команду, которая пытается тянуть буксир с напряжением, эквивалентным импульсу, который требуется алгоритму обучения для минимизации потерь при выполнении задачи. Последствием этого является то, что на каждом шаге приращения модель должна оцениваться по всем предыдущим и текущим задачам, чтобы уравновесить напряжение. В случае, если данная задача отсутствует в конкретном экземпляре, пространство параметров модели будет обновлено, чтобы оно заняло оставшиеся задачи. Таким образом, одновременное присутствие данных из всех предыдущих задач в методах, основанных на воспроизведении опыта, помогает лучше сбалансировать напряженность между всеми сторонами игры в перетягивание каната, в то время как ни одна цель задачи полностью не доминирует над критерием обучения.

2. Как семантика задачи влияет на производительность агента CL?

Еще одним важным событием семинара по CL стала работа Рамесеша и др. (2020), исследующая, как сходство между задачами влияет на степень забывания. Они приходят к выводу, что сеть максимально забывает, когда сходство представлений между предыдущей задачей и последующей задачей является промежуточным.

Чтобы понять это, нам нужно думать о CL последующих задач с точки зрения компонентов весовых векторов, изученных моделью. Для задач, которые не связаны между собой, изученные весовые векторы остаются ортогональными друг другу, в то время как для задач с большим сходством компоненты весовых векторов имеют минимальное угловое разделение. Единственный компонент вектора весовых коэффициентов θ, на который влияет обучение градиентного спуска, - это компонент, который находится в подпространстве данных обучения, а тот, на который меньше всего влияет обучение, является тот, который ортогонален данным поезда. подпространство (см. рисунок ниже, адаптированный из их выступления).

Рамесеш и др. предлагают две описательные установки CL для подтверждения своей гипотезы. В Установке 1, где модель обучается классифицировать корабль-грузовик как первую задачу, а затем лошадь-лошадь или самолет-машину как вторую задачу, мы видим, что задача распознавания лошади-кошки страдает от большего забвения. В настройке 2, где модель сначала обучается распознавать грузовик-корабль-олень, а затем следует распознавание самолета-автомобиля, производительность больше всего ухудшается для грузовика-корабля.

Авторы отмечают, что в настройке 1 модель строит свои представления только для транспортных средств, и, таким образом, все более непохожие представления для животных (кошка-лошадь) во втором задании вызывают большее забвение ранее изученных представлений транспортных средств. Однако установка 2 предполагает обучение модели одновременно на транспортных средствах и на животных, и поэтому изображения животных теперь занимают другую область скрытого пространства, чем транспортные средства. В результате при выполнении последней задачи заученные представления для животных ортогональны представлениям для самолета-автомобиля и претерпевают меньшую деградацию.

Остальная часть этого раздела пытается объяснить это с точки зрения интерференции передачи. Riemer et al. (2019) были первыми, кто рассмотрел непрерывное обучение с точки зрения компромисса между переносом и помехой. Чтобы понять это, давайте сначала погрузимся в ограничения дилеммы стабильность-пластичность. Как мы видели ранее, дилемма состоит в том, что стабильность изученной модели может быть улучшена за счет уменьшения забвения, т.е. до сих пор сохраняется проверка передачи весов из-за изучения текущей задачи, в то время как сведение к минимуму их вмешательства из-за разделения весов, которые важны для предыдущих задач.

Однако, поскольку у нас ограниченные знания о том, как могут выглядеть будущие задачи, минимизация распределения весов для предыдущих задач решает только половину проблемы - будущая задача, которая тесно связана с одной из ранее изученных задач, может потребовать дальнейшего распределения этих весов. и модель должна иметь возможность делать это, не нарушая выполнение предыдущих задач. Мы замечаем, что существует очевидная необходимость расширить временные ограничения дилеммы стабильности-пластичности, чтобы учесть неопределенность будущих задач.

Компромисс передачи-интерференции устраняет обратные помехи из-за обучения инкрементальной задачи, одновременно сохраняя контроль передачи представлений между весами, чтобы они не повредили будущему обучению. Ример и др. , таким образом, показывают, что задачи, которые изучаются с использованием компонентов одного и того же веса, имеют высокий потенциал как для интерференции, так и для передачи между примерами, в то время как те, которые изучены с использованием разных компонентов, переносят меньшую передачу и помехи.

Принимая во внимание вышеизложенную точку зрения, давайте теперь посмотрим на две установки CL Рамашеша и др.. В настройке 1 задача классификации корабль-грузовик не похожа на задачу инкрементальной кошки-лошади и поскольку модель пытается изучить их, используя один и тот же весовой компонент, высокая интерференция приводит к большему забвению предыдущей задачи.

В настройке 2, однако, мы видим, что модель вынуждена иметь иное представление для собаки-оленя, чем для корабля-грузовика. Поскольку представления для самолета-вагона больше похожи на задачу классификации корабль-грузовик и должны быть изучены с использованием одного и того же компонента веса, это катализирует передачу весов между ними, что приводит к большему забвению. С другой стороны, изображения оленя и собаки имеют компоненты, ортогональные компонентам самолета и автомобиля, и поэтому на них не влияет подавленная передача веса между ними.

Заключение. Короче говоря, мы увидели, как постоянно обучающийся агент сталкивается с проблемой присвоения кредитов на каждом этапе обучения и как воспроизведение опыта укрепляет доверие к каждой выполняемой задаче. Кроме того, семантика задач играет важную роль в степени забвения того, что агент пострадает, и это можно объяснить с точки зрения помех при передаче. Поскольку область продолжает развиваться в направлении крупномасштабного и независимого от предметной области обучения, лучшее понимание этих компромиссов действительно является ключом к более продвинутым стратегиям обучения, таким как метаобучающиеся [3].

использованная литература

Knoblauch, J., Husain, H., & Diethe, T. (2020). Оптимальное непрерывное обучение требует совершенной памяти и является NP-трудным. ArXiv, абс. / 2006.05188.
Джа, С., Шимер, М., и Йе, Дж. (2020). Непрерывное обучение в распознавании человеческой деятельности: эмпирический анализ регуляризации. ArXiv, abs / 2007.03032.
Ример М., Кейз И., Аджемян Р., Лю М., Риш И., Ту Ю. и Тесауро Г. (2019). Научитесь учиться, не забывая, максимизируя передачу и сводя к минимуму помехи. ArXiv, abs / 1810.11910.
Рамашеш В., Дайер Э. и Рагху М. (2020). Анатомия катастрофического забывания: скрытые представления и семантика задач. ArXiv, абс. / 2007.07400.

Постоянное обучение - где мы?

1. Почему методы, основанные на репетициях памяти, работают лучше?

2. Как семантика задачи влияет на производительность агента CL?

использованная литература

Вопросы по теме