Путь к обучению с подкреплением.
JML x AWS DeepRacer Bootcamp Pt. 1

Вы, наверное, слышали о беспилотном автомобиле. Возможно, вы когда-нибудь задумывались, как это возможно. Если вы хотите узнать некоторые из них, давайте углубимся в эту статью.

Конечно, есть много деталей, которые делают возможным автономное вождение, и оно все еще растет. Одной из технологий, которая делает этот автомобиль с автоматическим управлением возможным, является рост вычислительных технологий с использованием одной из технологий искусственного интеллекта (ИИ), которая называется обучение с подкреплением (RL).

Так что же такое искусственный интеллект? Это как в фильме "Терминатор"? А что такое обучение с подкреплением?

Учебный курс JML x AWS DeepRacer

Недавно Jakarta Machine Learning (JML) и AWS выбрали меня для участия в DeepRacer Bootcamp. .Большое спасибо JML и AWS за предоставленную мне возможность. Итак, это примерно трехмесячный буткемп с 9 участниками, где старший защитник разработчиков из AWS наставляет нас, чтобы изучить Reinforcement Learning и AWS DeepRacer. Итак, я хотел бы поделиться с вами своим опытом изучения обучения с подкреплением в этом учебном лагере. В этой статье я немного расскажу о введении в обучение с подкреплением и AWS DeepRacer. Позже я подробно рассмотрю обе темы.

Обучение с подкреплением

Я уже говорил об искусственном интеллекте. Вкратце, искусственный интеллект — это то, где машина может учиться сама по себе, и обучение с подкреплением является его частью.

Вы дрессировали питомца или слышали о дрессировке питомца? Когда мы дрессируем питомца, мы даем набор инструкций, которым нужно следовать, наш питомец будет действовать по этой команде, если она верна, мы вознаграждаем ее, а если неправильно, наказываем. Питомец на собственном опыте узнает, что ему следует делать, чтобы получить больше вознаграждения и избежать наказания. Именно этот тип обучения мы пытаемся имитировать в обучении с подкреплением. По аналогии питомец называется агентом. Он исследует среду и выполняет некоторые действия. В зависимости от действия ему будет предоставленовознаграждение,вознаграждениелибо положительное или отрицательное. Цель агента — получить как можно больше положительного вознаграждения.

AWS DeepRacer

Итак, прежде чем мы попробуем реализовать нашу модель на реальном автомобиле, что может быть опасно и дорого стоить. AWS дает нам возможность внедрять, а также изучать обучение с подкреплением на лету. Кроме того, у нас также есть лига AWS DeepRacer, где мы можем участвовать в гонках с другими. Вот определение AWS DeepRacer с его веб-сайта.

Испытайте полностью автономный гоночный автомобиль в масштабе 1/18, управляемый с помощью обучения с подкреплением, трехмерного гоночного симулятора и глобальной гоночной лиги.

Это все на данный момент. В следующей статье я углублюсь в математику, лежащую в основе обучения с подкреплением, а также о том, как создать нашу первую модель обучения с подкреплением в AWS DeepRacer, и о многих других интересных темах, поскольку я продолжу свой JML x AWS Bootcamp.