Теория обучения с подкреплением основана на психологии и нейробиологии. Например, если мы вознаграждаем детей за хорошее поведение и наказываем их за плохое. Они улучшаются и ждут новых наград. Точно так же в обучении с подкреплением мы вознаграждаем за правильные решения, как в игре, если агент должен завершить раунд, никуда не попав. Все хорошие повороты присуждаются, из которых он учится двигаться.
Глубокое обучение с подкреплением используется для включения исторической информации об окружающей среде вождения. LSTM используется для изучения внутренних отношений между транспортным средством эго и другими окружающими транспортными средствами на основе относительно большой продолжительности прошлого времени. Затем представление внутреннего состояния из LSTM на каждом временном шаге передается в Deep Q-сеть для выбора действия. После этого Q-сеть немедленно обновляется воспроизведением опыта и второй целевой Q-сетью, чтобы избежать проблем с локальными оптимумами и расхождениями. Таким образом можно изучить интерактивную политику слияния.
Модель LSTM
LSTM специально разработаны, чтобы избежать проблемы долгосрочной зависимости. Запоминание информации на длительные периоды времени - это практически их поведение по умолчанию, а не то, чему они изо всех сил стараются научиться!
Все рекуррентные нейронные сети имеют вид цепочки повторяющихся модулей нейронной сети. В стандартных RNN этот повторяющийся модуль будет иметь очень простую структуру, такую как один слой tanh.
LSTM также имеют структуру, подобную цепочке, но повторяющийся модуль имеет другую структуру. Вместо одного уровня нейронной сети существует четыре, взаимодействующих особым образом.
Ключом к LSTM является состояние ячейки, горизонтальная линия проходит через верхнюю часть диаграммы.
Состояние ячейки похоже на ленточный конвейер. Он проходит прямо по всей цепочке, лишь с некоторыми незначительными линейными взаимодействиями. Информация очень легко течет по ней без изменений.
LSTM действительно имеет возможность удалять или добавлять информацию о состоянии ячейки, тщательно регулируемую структурами, называемыми воротами.
Ворота - это способ пропускать информацию. Они состоят из слоя сигмоидной нейронной сети и операции точечного умножения.
Сигмоидный слой выводит числа от нуля до единицы, описывающие, сколько каждого компонента должно быть пропущено. Нулевое значение означает «ничего не пропускать», а значение «1» означает «пропустить все!»
LSTM имеет три таких шлюза для защиты и контроля состояния ячейки.
ГЛУБОКОЕ Q-ОБУЧЕНИЕ
В глубоком Q-обучении мы используем нейронную сеть для аппроксимации функции Q-значения. Состояние задается как вход, а значение Q всех возможных действий генерируется как выход.
Шаги, связанные с сетями глубокого Q-обучения (DQN).
- Весь прошлый опыт сохраняется пользователем в памяти
- Следующее действие определяется максимальной мощностью Q-сети.
- Функция потерь здесь представляет собой среднеквадратичную ошибку прогнозируемого значения Q и целевого значения Q - Q *. По сути, это проблема регрессии. Однако мы не знаем здесь цели или фактического значения, поскольку имеем дело с проблемой обучения с подкреплением.
Чтобы гарантировать, что в данном состоянии всегда будет оптимальное действие и что процесс обучения может быстро сходиться в нашей работе. Действие автомобиля состоит из продольного управления (ускорение) и поперечного контроля (рулевое управление). Мы проектируем аппроксиматор Q-функции как квадратичную функцию,
где A, B и C созданы с помощью нейронных сетей.
Действие не может иметь произвольно больших или малых значений из-за физической механики транспортного средства, поэтому мы ограничиваем ускорение и угол поворота в определенных диапазонах, а в пределах диапазона ускорение и рулевое управление могут иметь любое реальное значение. Когда достигается наилучшее действие с наивысшим значением Q, к нему добавляется случайный шум, и новое значение является выбранным действием, что аналогично концепции E-жадности, используемой в процессе исследования действия.
Функция вознаграждения измеряет безопасность, плавность и своевременность маневра слияния и формулируется как функция ускорения сливающегося автомобиля, угла поворота, скорости и расстояния до окружающих его транспортных средств.
Функция потерь определяется среднеквадратической ошибкой между прогнозируемыми значениями Q и целевыми значениями Q.
ЗАКЛЮЧЕНИЕ
Среда вождения основана на архитектуре LSTM, чтобы учесть влияние исторического и интерактивного поведения вождения на выбор действия. В процессе глубокого Q-обучения внутреннее состояние из LSTM принимается в качестве входных данных для аппроксиматора Q-функции, который используется для выбора действия на основе большей прошлой информации. Параметры Q-сети обновляются с воспроизведением опыта, и вторая целевая Q-сеть используется для решения проблем локальных оптимумов и нестабильности.