Новый препринт демонстрирует, как агенты глубокого обучения с подкреплением (RL) могут развивать эндогенные и увлекаемые ритмы, подобные циркадным ритмам в биологии.
Исследователи обучили агента RL с рекуррентной нейронной сетью LSTM для выполнения моделируемой задачи поиска пищи. Окружающая среда имела периодический цикл день-ночь из 40 временных шагов. Агент должен был научиться собирать пищевые вознаграждения в течение дня и возвращаться домой до наступления ночи, чтобы избежать штрафов.
После обучения агент демонстрировал поведенческий ритм ~ 24 часа, даже когда сигнал день-ночь оставался постоянным. Это продемонстрировало эндогенность ритма — его генерация была обусловлена внутренней динамикой агента, а не прямой реакцией на внешние сигналы.
Исследователи также провели эксперименты с «джетлагом», сдвинув фазу цикла дня и ночи во время тестирования. Агенту удалось перевести свой поведенческий ритм в новую фазу за несколько циклов, продемонстрировав способность к обучению.
С помощью динамического системного анализа исследователи показали появление стабильного аттрактора предельного цикла в единицах LSTM, вызванного бифуркацией во время обучения. Предельный цикл обладал подходящими фазовыми характеристиками, позволяющими синхронизировать внутренний ритм с внешними сигналами.
Полученные данные демонстрируют, что агенты глубокого RL могут усваивать временные закономерности окружающей среды. Результирующая динамика аттрактора поддерживает ожидание и адаптацию. Это актуально для непрерывного обучения в нестационарной среде. Это также подчеркивает необходимость понимания того, как соответствующие ландшафты нейронных аттракторов возникают у агентов RL посредством обучения.
Таким образом, это исследование показывает, как агент RL может выработать надежный и адаптивный циркадный ритм, подобный тем, которые встречаются в природе, посредством процесса глубокого обучения с подкреплением. Результаты улучшают наше понимание того, как агенты представляют время и адаптируются к окружающей среде.
раскрытие информации: Автор использует ИИ для создания черновиков резюме.