Deep Planning Network (PlaNet) - это агент на основе модели, который изучает модель динамики скрытого состояния по изображениям и предпринимает действия на основе онлайн-планирования скрытого состояния.

Архитектура

На высоком уровне архитектуру можно рассматривать как 3 компонента. Позже каждый компонент будет разбит на более мелкие модули.

  1. апостериорный: имеет ограничение быть рядом с одним шагом до
  2. многошаговый априорный: имеет ограничение распределения латентных состояний, близкое к апостериорному распределению латентных состояний. Многоступенчатые априорные значения используются для моделирования динамики
  3. модель наблюдения: имеет ограничение на восстановление наблюдений из скрытого состояния
  4. Контроллер: контроллер - это простой планировщик, который использует метод перекрестной энтропии для максимизации суммы вознаграждений по траектории длиной H

Задний

Апостериорная (q) параметризует распределение для стохастического скрытого состояния (состояний) на основе предыдущего детерминированного скрытого состояния, предыдущего стохастического скрытого состояния, предыдущего действия (a) и основного истинного наблюдения (o). Апостериор можно рассматривать как кодировщик наблюдения. q - многомерный гауссиан с диагональной ковариационной матрицей.

где h представляет детерминированное скрытое состояние

Многошаговый приор

В случае с PlaNet, когда речь идет о перспективном онлайн-планировании, важны многоэтапные априорные задачи. Многоэтапный априор можно рассматривать как модель перехода между скрытыми состояниями.

Многошаговый априор для скрытых состояний - это многомерный гауссиан с диагональной ковариацией (аналогично q):

Модель наблюдения - это многомерная гауссовская модель с тождественной ковариацией. Поскольку это реконструирует изображения, он использует деконволюционную сеть.

Оценки вознаграждения выбираются из скалярного гауссова уравнения с единичной дисперсией:

ниже приведен пример развертывания модели перехода для прогнозирования вознаграждений и наблюдений. Прогнозирование результатов наблюдений стоит дорого, но необходимо только во время обучения, поскольку оно не влияет на то, какие действия следует предпринять.

Обучение

Обучение контроллера и динамической модели выполняется отдельно. Нет параметров контроллера в том же смысле, что и типичный градиент политики или агент обучения Q. Параметры (среднее значение, ковариация) контроллера сбрасываются после каждого шага. Это означает, что наши апостериорные и многоступенчатые априорные значения изучаются в автономном режиме. Затем они используются в качестве модели динамики для онлайн-планирования с помощью метода кросс-энтропии.

Модель динамики

Ниже мы видим цель, используемую для обучения нашей динамической модели. Термин восстановления используется для обновления параметров, чтобы гарантировать, что скрытое состояние содержит необходимую информацию для восстановления достоверного наблюдения.

Термин скрытого превышения имеет две интересные цели. Когда d = 1, параметры как предшествующего, так и последующего сдвигаются друг к другу, чтобы обеспечить согласованность. Когда d ›1, обновляются только параметры предшествующего, чтобы смоделировать распределение латентного состояния от апостериорного. Во втором случае заднюю часть можно рассматривать как цель.

D - планируемая длина, используемая для обучения, а T - длина траектории.

Планирование

Планирование осуществляется методом кросс-энтропии на каждом этапе. Метод кросс-энтропии можно описать двумя основными шагами.

  1. Сгенерировать случайную траекторию в соответствии с распределением p (инициализировано как стандартное нормальное)
  2. Обновите параметры p на основе данных, чтобы получить «лучшие» образцы в следующей итерации.

Траектория длиной H сначала выбирается из стандартной нормы и проходит I итераций обновления среднего и дисперсии, чтобы максимизировать сумму вознаграждений на H-шагах. Каждая итерация использует K наиболее эффективных агентов в популяции J агентов для обновления параметров.

После каждого шага этот процесс перезапускается в режиме прогнозирующего управления моделью. Фактическое действие - это первое действие в траектории максимального вознаграждения (обведено красным).

Сравнение с моделями мира

PlaNet похож на Модели мира (резюме) в том, что они оба разделяют изучение модели динамики и изучение политики. Однако модели мира далее разбивают изучение модели динамики на сначала изучение сжатого вложения наблюдения, а затем изучение модели динамики только на основе вложений. Как мы видели выше в PlaNet, изучение модели динамики по латентным состояниям выполняется одновременно с изучением представления латентных состояний.

В будущем было бы интересно увидеть несколько тестов, сравнивающих производительность как World Models, так и PlaNet. Некоторые непосредственные недостатки PlaNet могут заключаться в том, что динамическая модель не способна фиксировать мультимодальные переходы, такие как MD-RNN в моделях мира.