22 июля 2023 г., ПОЯВЛЕНИЕ АДАПТИВНЫХ ЦИРКАДИЕВЫХ РИТМОВ В ГЛУБИННОМ ОБУЧЕНИИ — Акил Лабаш, Флориан Флетцер, Даниэль Мажорал, Рауль Висенте

Новый препринт демонстрирует, как агенты глубокого обучения с подкреплением (RL) могут развивать эндогенные и увлекаемые ритмы, подобные циркадным ритмам в биологии.

Исследователи обучили агента RL с рекуррентной нейронной сетью LSTM для выполнения моделируемой задачи поиска пищи. Окружающая среда имела периодический цикл день-ночь из 40 временных шагов. Агент должен был научиться собирать пищевые вознаграждения в течение дня и возвращаться домой до наступления ночи, чтобы избежать штрафов.

После обучения агент демонстрировал поведенческий ритм ~ 24 часа, даже когда сигнал день-ночь оставался постоянным. Это продемонстрировало эндогенность ритма — его генерация была обусловлена ​​внутренней динамикой агента, а не прямой реакцией на внешние сигналы.

Исследователи также провели эксперименты с «джетлагом», сдвинув фазу цикла дня и ночи во время тестирования. Агенту удалось перевести свой поведенческий ритм в новую фазу за несколько циклов, продемонстрировав способность к обучению.

С помощью динамического системного анализа исследователи показали появление стабильного аттрактора предельного цикла в единицах LSTM, вызванного бифуркацией во время обучения. Предельный цикл обладал подходящими фазовыми характеристиками, позволяющими синхронизировать внутренний ритм с внешними сигналами.

Полученные данные демонстрируют, что агенты глубокого RL могут усваивать временные закономерности окружающей среды. Результирующая динамика аттрактора поддерживает ожидание и адаптацию. Это актуально для непрерывного обучения в нестационарной среде. Это также подчеркивает необходимость понимания того, как соответствующие ландшафты нейронных аттракторов возникают у агентов RL посредством обучения.

Таким образом, это исследование показывает, как агент RL может выработать надежный и адаптивный циркадный ритм, подобный тем, которые встречаются в природе, посредством процесса глубокого обучения с подкреплением. Результаты улучшают наше понимание того, как агенты представляют время и адаптируются к окружающей среде.

раскрытие информации: Автор использует ИИ для создания черновиков резюме.