Мысли и теория

Четыре статьи по глубокому обучению, которые стоит прочитать в апреле 2021 года

От мета-градиентов к механическим VAE, теория глобального рабочего пространства для нейронных сетей и край стабильности обучения

Добро пожаловать в апрельский выпуск серии Машинное обучение-Коллаж, где я делаю обзор различных направлений исследований в области глубокого обучения. Так о чем этот сериал? Проще говоря, я составляю визуальное резюме из одного слайда одной из моих любимых недавних работ. Каждую неделю. В конце месяца все визуальные коллажи собираются в сводном сообщении в блоге. Таким образом, я надеюсь дать вам наглядное и интуитивно понятное представление о некоторых из самых крутых тенденций. Итак, без лишних слов: вот четыре моих любимых статьи, которые я прочитал в марте 2021 года, и почему я считаю их важными для будущего глубокого обучения.

«Открытие вариантов с помощью мета-подцелей»

Авторы: Veeriah et al. (2021 г.) | 📝 Бумага

Резюме в одном абзаце: Управление моторикой - невероятно сложная проблема. Мы, люди, так хороши в этом, потому что мы планируем в нескольких расширенных временных масштабах: вместо того, чтобы составлять карту каждого отдельного действия мускулов, мы рассуждаем на абстрактном уровне и выполняем последовательности мелкозернистых действий. Иерархическое обучение с подкреплением (HRL) призвано имитировать этот подход с помощью так называемых временных абстракций. Проще говоря, временная абстракция - это просто моторная программа, которая выполняется в течение длительного периода времени. Опции (Sutton et al., 1999) являются одним из специфических типов такой временной абстракции. Они состоят из подполитики и соответствующего условия завершения. Опционная политика вызывается менеджером более высокого уровня и выполняется до тех пор, пока условие завершения не остановит ее. Ключевой вопрос в HRL - как автоматически определять полезные параметры, которые передаются между многими задачами? Veeriah et al. (2021) предлагают изучать параметризацию опционов с помощью мета-градиентов. Во внешнем цикле метаградиенты оптимизируют гиперпараметры, распространяя градиенты более высокого порядка через процедуру шага обновления оптимизации, которая зависит от них (дифференцируемым образом). В этой статье оптимизированные гиперпараметры выбраны как нейронные сети, которые определяют параметры. Предлагаемый многожизненный мета-градиентный подход под названием MODAC способен обнаруживать полезные опции, которые переносятся в новые настройки, где только политика менеджера может быть повторно обучена. Следовательно, мета-градиентный подход может извлекать значимые закономерности из распределения задач. Они тестируют свой метод на стандартной задаче с четырьмя комнатами, а затем масштабируют его до более сложной области DeepMind Lab.

«Заводные вариационные автоэнкодеры»

Авторы: Saxena et al. (2021 г.) | 📝 Бумага

Резюме в один абзац. Рекуррентные генеративные модели борются с созданием длинных последовательностей четких изображений и фиксацией долгосрочных зависимостей в видео. Заводные вариационные автоэнкодеры (CW-VAE) Саксены и др. (2021) стремятся преодолеть это ограничение, расширяя модели пространства рекуррентных состояний (RSSM; Hafner et al. 2019), которые представляют собой класс повторяющихся VAE. По своей сути CW-VAE масштабируют эти модели скрытой динамики, вводя иерархию скрытых данных, которые изменяются с разными фиксированными тактовыми частотами. Верхний уровень адаптируется медленнее и модулирует процесс генерации нижних уровней. Скорость тика увеличивается по мере того, как человек спускается по иерархии. На самом низком уровне модель выводит сгенерированное изображение с повышением дискретизации через транспонированную CNN. Вся повторяющаяся архитектура VAE обучается от начала до конца с использованием цели доказательной нижней границы (ELBO). Авторы демонстрируют, что эта временная абстрактная иерархия динамических скрытых переменных превосходит многие базовые показатели, которые не охватывают скрытую иерархию или где все уровни тикают с одинаковой скоростью. Мне особенно понравилось классное исследование абляции, целью которого является извлечение информации о содержании, хранящейся на разных уровнях. Отрезая входной сигнал от потока на верхний уровень, авторы могут продемонстрировать, что верхний уровень предоставляет глобальную неспецифическую информацию нижним уровням. Наконец, они также показывают, что скрытая динамика способна адаптироваться к скорости ввода предварительно обусловленной последовательности: высокочастотные последовательности приводят к тому, что быстрые скрытые переменные низкого уровня захватывают больше информации. Таким образом, иерархия механизмов, действующих в разных временных масштабах, очень полезна не только для обучения с подкреплением, но и для генеративного моделирования.

«Координация между нейронными модулями через общую глобальную рабочую область»

Авторы: Goyal et al. (2021 г.) | 📝 Бумага

Краткое содержание одного абзаца: Одной из самых известных теорий сознания является теория глобального рабочего пространства. Он предлагает простую когнитивную архитектуру, в которой обработанные сенсорные ощущения проецируются в общую рабочую область, также известную как классная доска. Информация, поступающая из разных источников, выборочно записывается в это рабочее пространство и подсознательно обрабатывается. Этот этап обработки объединяет различные методы и отбрасывает нерелевантные функции. После этого преобразованная информация транслируется в другие области мозга, связанные с сознательными процессами. Goyal et al. (2021) черпают вдохновение из этой нейробиологической теории высокоуровневого сознания и обрисовывают вычислительную основу для объединения рабочего пространства с механизмом внимания, чтобы облегчить координацию между изученными нейронными модулями. В частности, авторы предлагают низкоразмерное узкое место (также известное как общее рабочее пространство), чтобы облегчить синхронизацию модулей специалистов. Различные нейронные сети (например, Transformer или разные LSTM) должны конкурировать за запись в узкое место рабочего пространства. После этого обновляются исходящие представления на основе механизма мягкого или жесткого внимания. Ключевая идея заключается в том, что ограничение полосы пропускания полезно для скоординированного обучения независимым, но интегрированным механизмам. Используя исчерпывающий набор экспериментов, авторы показывают, что предложенный механизм облегчает специализацию между модулями и помогает стабилизировать их сквозное обучение. Кроме того, низкоразмерный характер рабочего пространства снижает дорогостоящее попарное взаимодействие между специалистами. Следовательно, это может быть полезно не только для обучения, но и для вывода.

«Градиентный спуск в нейронных сетях обычно происходит на грани стабильности»

Авторы: Коэн и др. (2021 г.) | 📝 Бумага

Резюме в одном абзаце: одно из самых увлекательных и до сих пор не полностью объясненных наблюдений в глубоком обучении заключается в том, что мы, кажется, можем эффективно оптимизировать миллиарды параметров, используя только простой алгоритм, такой как стохастический градиентный спуск. Но что мы на самом деле знаем о динамике обучения и конвергенции? Cohen et al. (2021) сделали шаг назад, чтобы исследовать особый случай градиентного спуска, когда пакет состоит из всего набора данных. Авторы показывают, что эта версия градиентного спуска с полным пакетом операций работает в особом режиме. А именно на «грани стабильности». Что это за край? Существует две фазы обучения нейронной сети: во время начальной первой фазы наибольшее собственное значение гессиана потерь при обучении (также известное как резкость) постепенно увеличивается, пока не достигнет 2 / скорость обучения. Во время этой фазы потери в обучении монотонно уменьшаются. Как только это собственное значение достигает 2 / скорость обучения, достигается «край стабильности». После этого градиентный спуск удерживает резкость от дальнейшего роста. Вместо этого он парит чуть выше порога скорости обучения 2 /. В краткосрочной перспективе потеря тренировки перестает быть монотонной, а колеблется. Но в более длительном масштабе времени градиентному спуску все же удается уменьшить потери. Авторы проверяют это эмпирическое наблюдение на множестве задач и на разных архитектурах, включая стандартные CNN и трансформаторы. Полученные результаты ставят под сомнение многие аспекты общепринятого подхода к оптимизации градиентного спуска: как градиентный спуск ограничивает резкость формы непрерывного роста? Что это означает для расписания скорости обучения? Неужели нам действительно нужно отжигать их со временем? Хорошая научная работа открывает много интересных вопросов для будущих исследований, и эта работа определенно попадает под эту категорию.

Это все в этом месяце. Дайте мне знать, какие у вас были любимые статьи. Если вы хотите получать еженедельный ввод в коллаж ML, проверьте хэштег #mlcollage в Твиттере. Вы также можете посмотреть коллажи в моем последнем сообщении в блоге:



Наконец, если вы хотите узнать больше о потенциале мета-градиентов в RL и за его пределами, вы можете проверить мой предыдущий блог-пост с обзором. У меня также была возможность взять интервью у одного из главных авторов мета-градиента - Тома Захави из DeepMind - в недавнем эпизоде ​​подкаста ML Street Talk: