Одна из интересных и устойчивых проблем в машинном обучении (ML) - это улучшение возможностей модели для адаптации и обобщения вне распределения. Хотя это простая задача для людей, которые могут быстро адаптировать и изучать новые знания, повторно используя соответствующие предшествующие знания, инвестирование в агента с такими способностями требует понимания того, как разделить знания на легко перекомпонованные модули и как модифицировать или комбинировать эти модули. для достижения эффективной адаптации к новым задачам или изменениям в распределении данных.

С этой целью исследовательская группа из Монреальского университета и Института интеллектуальных систем Макса Планка, в которую входит обладатель премии Тьюринга Йошуа Бенжио, недавно предложила модульную архитектуру, состоящую из набора независимых модулей, которые конкурируют друг с другом, чтобы следить за вводом и редко взаимодействовать. используя механизм внимания "ключ-значение". Исследователи применяют подход метаобучения к модулям и параметрам механизма внимания, чтобы добиться быстрой адаптации к изменениям в распределении или новым задачам в агентах обучения с подкреплением (RL).

Команда изучает, может ли такая модульная архитектура помочь разложить знания на неизменяемые и повторно используемые части, чтобы полученная модель была не только более эффективной для выборки, но и обобщалась для различных распределений задач.

Предлагаемая модель основана на архитектуре повторяющихся независимых механизмов (RIM), которая содержит набор независимых и конкурирующих модулей. В этой настройке каждый модуль действует независимо и умеренно взаимодействует с другими модулями посредством внимания. Различные модули обращаются к различным частям ввода посредством внимания ввода, в то время как контекстные связи между модулями устанавливаются посредством внимания коммуникации.

Исследователи демонстрируют, как улавливать быстро и медленно меняющиеся аспекты основного распределения, используя метаобучение для обучения различных компонентов сети с разной скоростью и в разных временных масштабах. Таким образом, предлагаемая модель имеет фазы быстрого и медленного обучения. При быстром обучении параметры активированного модуля быстро обновляются, чтобы фиксировать изменения в распределении задач. При медленном обучении параметры двух наборов механизмов внимания обновляются реже, чтобы уловить более стабильные аспекты распределения задач.

Команда провела оценку предложенных ими сетей Meta-RIM в большом количестве сред из пакетов MiniGrid и BabyAI. В качестве показателей они выбрали среднее вознаграждение и средний уровень успеха и сравнили сети Meta-RIM с двумя базовыми показателями: ванильной моделью LSTM и модульной сетью.

Результаты показывают, что предложенный метод может повысить эффективность выборки и привести к политике, которая лучше обобщает систематические изменения в распределении обучения. Кроме того, этот подход обеспечивает более быструю адаптацию к новым дистрибутивам и лучший режим обучения по учебной программе для постепенного обучения агентов RL путем повторного использования знаний из аналогичных, ранее изученных задач.

В исследовании успешно используется метаобучение на модульных архитектурах с разреженной коммуникацией для захвата краткосрочных и долгосрочных аспектов базовых механизмов, подтверждая, что метаобучение и модуляризация на основе внимания могут привести к повышению эффективности выборки и обобщению вне распределения. и трансферное обучение.

Статья Быстрое и медленное обучение рекуррентных независимых механизмов находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.