Теория обучения с подкреплением основана на психологии и нейробиологии. Например, если мы вознаграждаем детей за хорошее поведение и наказываем их за плохое. Они улучшаются и ждут новых наград. Точно так же в обучении с подкреплением мы вознаграждаем за правильные решения, как в игре, если агент должен завершить раунд, никуда не попав. Все хорошие повороты присуждаются, из которых он учится двигаться.

Глубокое обучение с подкреплением используется для включения исторической информации об окружающей среде вождения. LSTM используется для изучения внутренних отношений между транспортным средством эго и другими окружающими транспортными средствами на основе относительно большой продолжительности прошлого времени. Затем представление внутреннего состояния из LSTM на каждом временном шаге передается в Deep Q-сеть для выбора действия. После этого Q-сеть немедленно обновляется воспроизведением опыта и второй целевой Q-сетью, чтобы избежать проблем с локальными оптимумами и расхождениями. Таким образом можно изучить интерактивную политику слияния.

Модель LSTM

LSTM специально разработаны, чтобы избежать проблемы долгосрочной зависимости. Запоминание информации на длительные периоды времени - это практически их поведение по умолчанию, а не то, чему они изо всех сил стараются научиться!

Все рекуррентные нейронные сети имеют вид цепочки повторяющихся модулей нейронной сети. В стандартных RNN этот повторяющийся модуль будет иметь очень простую структуру, такую ​​как один слой tanh.

LSTM также имеют структуру, подобную цепочке, но повторяющийся модуль имеет другую структуру. Вместо одного уровня нейронной сети существует четыре, взаимодействующих особым образом.

Ключом к LSTM является состояние ячейки, горизонтальная линия проходит через верхнюю часть диаграммы.

Состояние ячейки похоже на ленточный конвейер. Он проходит прямо по всей цепочке, лишь с некоторыми незначительными линейными взаимодействиями. Информация очень легко течет по ней без изменений.

LSTM действительно имеет возможность удалять или добавлять информацию о состоянии ячейки, тщательно регулируемую структурами, называемыми воротами.

Ворота - это способ пропускать информацию. Они состоят из слоя сигмоидной нейронной сети и операции точечного умножения.

Сигмоидный слой выводит числа от нуля до единицы, описывающие, сколько каждого компонента должно быть пропущено. Нулевое значение означает «ничего не пропускать», а значение «1» означает «пропустить все!»

LSTM имеет три таких шлюза для защиты и контроля состояния ячейки.

ГЛУБОКОЕ Q-ОБУЧЕНИЕ

В глубоком Q-обучении мы используем нейронную сеть для аппроксимации функции Q-значения. Состояние задается как вход, а значение Q всех возможных действий генерируется как выход.

Шаги, связанные с сетями глубокого Q-обучения (DQN).

  1. Весь прошлый опыт сохраняется пользователем в памяти
  2. Следующее действие определяется максимальной мощностью Q-сети.
  3. Функция потерь здесь представляет собой среднеквадратичную ошибку прогнозируемого значения Q и целевого значения Q - Q *. По сути, это проблема регрессии. Однако мы не знаем здесь цели или фактического значения, поскольку имеем дело с проблемой обучения с подкреплением.

Чтобы гарантировать, что в данном состоянии всегда будет оптимальное действие и что процесс обучения может быстро сходиться в нашей работе. Действие автомобиля состоит из продольного управления (ускорение) и поперечного контроля (рулевое управление). Мы проектируем аппроксиматор Q-функции как квадратичную функцию,

где A, B и C созданы с помощью нейронных сетей.

Действие не может иметь произвольно больших или малых значений из-за физической механики транспортного средства, поэтому мы ограничиваем ускорение и угол поворота в определенных диапазонах, а в пределах диапазона ускорение и рулевое управление могут иметь любое реальное значение. Когда достигается наилучшее действие с наивысшим значением Q, к нему добавляется случайный шум, и новое значение является выбранным действием, что аналогично концепции E-жадности, используемой в процессе исследования действия.

Функция вознаграждения измеряет безопасность, плавность и своевременность маневра слияния и формулируется как функция ускорения сливающегося автомобиля, угла поворота, скорости и расстояния до окружающих его транспортных средств.

Функция потерь определяется среднеквадратической ошибкой между прогнозируемыми значениями Q и целевыми значениями Q.

ЗАКЛЮЧЕНИЕ

Среда вождения основана на архитектуре LSTM, чтобы учесть влияние исторического и интерактивного поведения вождения на выбор действия. В процессе глубокого Q-обучения внутреннее состояние из LSTM принимается в качестве входных данных для аппроксиматора Q-функции, который используется для выбора действия на основе большей прошлой информации. Параметры Q-сети обновляются с воспроизведением опыта, и вторая целевая Q-сеть используется для решения проблем локальных оптимумов и нестабильности.