Публикации по теме 'control'


Объяснение глубоких детерминированных градиентов политики
Обучение с подкреплением в пространствах непрерывного действия Этот пост представляет собой тщательный обзор публикации Deepmind «Непрерывный контроль с глубоким обучением с подкреплением» (Lillicrap et al, 2015), в которой описаны глубинные детерминированные градиенты политики (DDPG). представлен и написан для людей, которые хотят понять алгоритм DDPG. Если вас интересует только реализация, вы можете перейти к последнему разделу этой публикации. Этот пост написан с..