В этой статье я хочу сделать краткую презентацию D2RL paper, применяющего глубокую плотную архитектуру нейронных сетей для глубокого обучения с подкреплением.

Глубокое обучение и компьютерное зрение

Влияние больших и плотных сетевых архитектур давно исследовано в компьютерном зрении и глубоком обучении. Широко известны улучшенные характеристики и другие преимущества таких плотных моделей по сравнению с мелкими. Таким образом, в глубоком обучении с подкреплением архитектурам нейронных сетей пока не уделяется так много внимания. Обычно используемые сети, такие как политика или Q-функция, обычно имеют всего два уровня.

Однако несоразмерное преимущество размера и глубины нейронных сетей было продемонстрировано в современных исследованиях компьютерного зрения и обработки языка. Очень глубокие нейронные сети можно обучить изучать более сильные и более обобщенные представления. Как правило, более глубокие нейронные сети могут изучать более сложные функции, а также иметь более плавный ландшафт потерь.

Современное компьютерное зрение и языковая обработка в значительной степени используют индуктивные предубеждения, которые обеспечивают лучшую оптимизацию и выразительность в аппроксиматорах функций обучения. Это достигается за счет разумного выбора архитектуры нейронной сети, например:

  • остаточные связи
  • слой нормализации
  • стробирующие механизмы

В документе авторы попытались сделать первый шаг в направлении тестирования и разработки плотных сетевых архитектур для глубокого обучения с подкреплением (DRL). На основании этого доказывается, что алгоритмы DRL также выигрывают от плотных сетевых архитектур.

Почему глубже?

Но в чем причина тренировать более глубокие и плотные алгоритмы ДХО?

Двумя большими недостатками методов DRL и, следовательно, захватывающими областями исследований являются выборочная эффективность и обобщение алгоритмов. Эффективность выборки принципиально важна для агентов, которые обучены в реальном мире, где получение образцов является дорогостоящим, особенно для задач управления роботами. Как говорят авторы статьи: Включение минимальных индуктивных смещений в структуру - один из эффективных механизмов решения проблемы эффективности выборки агентов DRL и повышения их эффективности.

Для алгоритмов обучения очень важны индуктивные предубеждения, так как
можно вызвать желаемое поведение у обученных агентов. Недавно было проведено исследование по добавлению индуктивного смещения инвариантности к алгоритмам DRL для повышения эффективности выборки. Эти методы использовали увеличение данных при обучении на основе изображений или контрастных потерь.

В целом, было бы идеально сочетать различные типы индуктивных смещений, которые обычно используются в компьютерном зрении, NLP или глубоком обучении, и применять их к современным алгоритмам DRL. Обеспечение более высокой эффективности выборки в робототехнике, поскольку это значительно поддержит развертывание реальных агентов обучения роботов.

Более глубокие сети

Возникает логичный вопрос: можно ли повысить производительность агента, просто добавляя в сеть все больше и больше уровней.

Простой и короткий ответ - нет! Просто увеличив количество слоев, агент не сможет воспользоваться индуктивным смещением более глубоких экстракторов. Два слоя кажутся оптимальным вариантом, после чего дальнейшее увеличение количества слоев приводит к значительному снижению эффективности использования DRL агентов.

Этот эффект также часто наблюдается в компьютерном зрении. Поскольку по мере увеличения количества слоев из-за нелинейных преобразований, используемых в глубоком обучении, взаимная информация между выходными и входными данными, вероятно, уменьшается. Удивительно, но увеличение размера слоя до 8 приводит к снижению эффективности выборки, а также к нестабильности во время обучения.

Таким образом, недостаточно просто увеличить плотность слоев, необходимо применять общие приемы глубокого обучения, такие как из области CV или NLP, и необходимо принимать умные архитектурные решения для более глубокого размера сети.

D2RL

В своих экспериментах авторы использовали алгоритм Soft-Actor-Critic (SAC) в качестве основы. Для реализации D2RL-SAC первое, что они изменили, - это замена обычно используемого двухуровневого MLP в политике и функции значения на четырехуровневую глубокую сеть. Кроме того, их архитектура включает плотные соединения от входа к каждому из уровней. Это для политики, а также для функции ценности.

Следовательно, они просто объединяют состояние или пару состояние-действие с каждым скрытым слоем сетей, кроме последнего выходного линейного слоя, поскольку это просто линейное преобразование выходных данных предыдущего уровня. Все остальные гиперпараметры алгоритма остались прежними, равными базовой линии.

Результаты

Результаты экспериментов ясно показывают, что D2RL-SAC демонстрирует лучшие характеристики по сравнению с базовой линией. С сетевой архитектурой D2RL протестированные алгоритмы были более эффективны для выборки по сравнению с их базовыми аналогами. Кроме того, они значительно лучше работали в сложных условиях с различными модальностями шума, системными задержками, физическими возмущениями и фиктивными размерами.

Кроме того, авторы протестировали влияние Актёра и Критика алгоритма SAC. Имея только D2RL-Actor или D2RL-Critic. Их результаты показывают, что D2RL-архитектура помогает как критику, так и актеру. Если обе сети используют D2RL, это приведет к повышению общей производительности. Кроме того, глубина в 4 слоя для D2RL, по-видимому, обеспечивает наивысшую производительность по сравнению с 8-ми или двухслойным D2RL.

В целом это впечатляющие результаты, которые показывают, что для применения современных методов глубокого обучения в обучении с подкреплением еще много неизведанной территории. Доказательство того, что есть большой потенциал для повышения производительности при чистом взгляде на сторону глубокого обучения алгоритмов обучения с подкреплением.

Подтверждение результата

Чтобы проверить улучшение, сделанное в статье, я добавил D2RL в мою реализацию SAC и обучил D2RL-SAC в среде спортзала Pendulum-v0 и сравнил его с результатами простого базового SAC. И действительно, D2RL-SAC имеет лучшую производительность и более эффективную выборку. Кроме того, у него гораздо меньшая дисперсия в его характеристиках, измеренных на 3 разных семенах.

В связи с этим мне интересно узнать о будущем и о том, какие другие функции и полезные механизмы из глубокого обучения и областей компьютерного зрения или НЛП находят свой путь к глубокому обучению с подкреплением и помогают повысить производительность агентов.

Для получения дополнительной информации о D2RL и результатах экспериментов я рекомендую вам прочитать статью: D2RL

Если вам понравилась статья и вы хотите узнать больше об обучении с подкреплением, не стесняйтесь ознакомиться с некоторыми другими моими статьями, например:

или подписывайтесь на меня на Medium, GitHub или LinkedIn.