От нуля к SOTA в обучении с подкреплением

Примечания: выпуск 4-часового курса обучения с подкреплением для начинающих и профессионалов

В дополнение к нашим сериализованным блогам, « AI Distillery » и Cups to Consciousness », мы время от времени будем публиковать части и материалы в виде отдельных или небольших серий. Говоря о не по теме и несколько двусмысленном характере этих материалов по сравнению с другими нашими публикациями, мы решили назвать это Дополнительные заметки.

Дополнительные примечания будут именно этим. Вспомогательные материалы, связанные с MTank и AI, которые, как мы думаем, могут понравиться нашим читателям. Форматы будут разными, но, вероятно, будут включать все. Думайте об этом как о сборнике дополнительных проектов, переговоров и идей.

С учетом сказанного, в течение последнего года или около того мы потратили значительное количество времени на чтение, возвращаясь к своей любимой области: Обучение с подкреплением (RL), и выделяя ее. Для тех, кто интересуется RL как ветвью искусственного интеллекта, мы открываем исходный код курса RL, который мы создали в прошлом году в качестве вводного курса для инженеров и исследователей.

Что такое обучение с подкреплением?

Обучение с подкреплением - один из самых многообещающих методов последних лет; обеспечивая значительный прогресс в видео и настольных играх, а также предоставляя основу для решения общих задач последовательного принятия решений и прокладывая путь к более интеллектуальным машинам. Мы были очарованы этой областью какое-то время и постепенно начали изучать основные материалы и статьи в Интернете.

Хотя мы чувствовали, что имеется много доступного материала - лично мы рекомендуем книгу Ричарда Саттона (Ссылка) и курс Дэвида Сильвера UCL RL (Ссылка) - в целом он был разрозненным, слишком вводным или слишком продвинутым. В конце концов, несмотря на поиски, мы не нашли хороших грунтовок продолжительностью менее 10 часов для людей, интересующихся космосом. Итак, мы построили один.

То, что мы сделали

Мы создали курс RL из двух частей: Intro to RL и Intro to Deep RL. Первый касается некоторых теоретических основ RL - политик, вознаграждений, уравнений и всего такого хорошего. Последний быстро знакомит читателей с некоторыми современными подходами (SOTA), которые продолжают появляться в средствах массовой информации, когда компании ИИ уничтожают людей-геймеров с помощью своих интеллектуальных агентов RL.

Ссылка на слайды

Где появился курс / для кого мы его сделали

Изначально курс был составлен для 4-часового семинара по RL, который Фернандо провел внутри компании Bosch в 2018 году. Мы также планируем предоставить обновленную версию этим летом. Кроме того, он также представил сокращенную версию курса на встрече StuttgartAI в феврале [ссылка].

Бен выступил с часовым докладом на конференции Open Data Science Conference (ODSC) [Ссылка на сайт], охватывающего первую и небольшую части второй. Видео выступления доступно на их сайте: https://learnai.odsc.com/courses/introduction-to-reinforcement-learning и ниже:

Курс был разработан для новичков в RL, и для тех, кто хочет "наверстать упущенное" в некоторых из новейших методов в RL и подполях. Мы сделали это, потому что считали, что не хватает всеобъемлющих, сжатых материалов по RL, которые отдавали бы приоритет примерам реальных исследований, а также современным подходам.

Откровенно говоря, мы создали это для себя. Но тем самым мы создали то, что может иметь ценность и для других людей. Слайды еще не доработаны и будут обновляться по мере того, как время идет и методы меняются. Но, надеюсь, кто-то еще извлечет пользу из этой работы.

Краткий обзор

Первая часть охватывает основы, основные концепции и основы RL. Основные приложения, вдохновение и видение RL. Другие части главного айсберга включали проблему «присвоения кредита», разведку и эксплуатацию. С алгоритмической стороны мы рассмотрели: Монте-Карло против временной разницы, плюс динамическое программирование (итерация политики и значений).

Как только читатели разберутся с первой частью, вторая часть должна быть достаточно простой концептуально, поскольку мы просто строим основные концепции из первой части. Как видно ниже, мы добавили в RL новейшие подходы, в которых активно используется глубокое обучение. Их можно условно разделить на методы градиента политики и методы на основе глубокого Q-обучения. Удачной учебы!

Подведение итогов

Мы надеемся, что некоторые из наших читателей или будущих читателей сочтут этот блиц-курс по Обучение с подкреплением полезным, ссылка здесь. Если да, или знаете кого-то, кто мог бы, то передайте это дальше. Также мы планируем постоянно изменять, дорабатывать и обновлять эти материалы. Так что не стесняйтесь оставлять комментарий или электронное письмо на адрес [email protected] и помогите нам сделать его еще лучше!

Если у вас есть какие-либо вопросы, вам нужна рекомендация или вы хотите получить от нас разъяснения. Вы знаете, где нас найти, всегда рады помочь!

От нуля к SOTA в обучении с подкреплением

Вопросы по теме