Прежде чем мы перейдем к глубокому обучению с подкреплением, давайте попробуем понять, что такое обучение с подкреплением.

Обучение с подкреплением — это ветвь машинного обучения, которая позволяет системам на основе ИИ вести себя в динамической среде, обучаясь методом проб и ошибок, чтобы оптимизировать вознаграждение для группы в целом на основе отзывов, полученных для отдельных действий. Обратная связь в контексте обучения с подкреплением относится к положительному или отрицательному утверждению, сделанному посредством поощрений или наказаний.

Реальным примером бота с этой моделью могут быть боты Google, которые приобретают навыки решения проблем, участвуя в базовых стратегических играх, таких как Го. Эта игра требует интеллекта и дедуктивного мышления. Агенту Google по обучению с подкреплением были неизвестны правила игры и то, как в нее играть. Сначала он просто экспериментировал с различными движениями наугад, а со временем «узнал», какие движения были наиболее эффективными. Он продолжал приобретать новые навыки, пока не смог регулярно превосходить игроков-людей.

Теперь мы попытаемся понять работу обучения с подкреплением на простом примере:

Представьте, что вы хотите научить свою кошку новому навыку. Мы не можем напрямую приказать кошке что-либо делать, потому что она не говорит ни по-английски, ни на каком-либо другом человеческом языке. Вместо этого мы используем другой подход.

Кошка пытается реагировать по-разному, пока мы имитируем ситуацию. Мы дадим кошке рыбу, если ее реакция будет такой, какой мы хотим. Теперь всякий раз, когда кошка сталкивается с тем же обстоятельством, она действует так же с еще большим рвением в ожидании получения дополнительной награды (еды). Подобно тому, как кошки учатся «что делать» через удовлетворяющий опыт. Кошка также усваивает уроки того, чего не следует делать в неприятных ситуациях.

В этом случае ваша кошка является агентом, который находится в контакте с окружающей средой. В данном случае это ваш дом. Ваша кошка может сидеть в качестве примера состояния, и вы можете использовать определенную фразу, чтобы обозначить ходьбу вашей кошки. Когда наш агент реагирует, он или она переходит из одного «состояния» в другое. Например, ваша кошка может перейти от сидения к ходьбе. Реакция агента — это действие, а политика — это способ выбора действия при заданном состоянии в надежде на лучшие результаты. После перехода они могли получить вознаграждение или наказание.

Когда мы говорим об обучении компьютера, есть способы реализовать алгоритм обучения с подкреплением:

1. На основе ценности: вам следует попытаться оптимизировать функцию ценности V в стратегии(ах) обучения с подкреплением, основанной на ценности. При таком подходе агент ожидает, что нынешние состояния, охватываемые политикой, в конечном итоге вернутся.

2. На основе политики. В методе RL на основе политики вы пытаетесь разработать такую ​​политику, чтобы действие, выполняемое в каждом состоянии, помогало вам получить максимальное вознаграждение в будущем.

3. На основе модели. Для каждой среды в этой методике обучения с подкреплением необходимо создать виртуальную модель. Агент получает необходимые навыки для работы в этой среде.

Хорошо, теперь, когда мы увидели базовую работу алгоритма обучения с подкреплением, давайте глубоко погрузимся в алгоритм глубокого обучения с подкреплением.

Что такое глубокое обучение с подкреплением?

Сочетание глубокого обучения с обучением с подкреплением создает чрезвычайно динамичную область глубокого обучения с подкреплением (DRL). Это также самый популярный вид машинного обучения, поскольку он может решать множество сложных проблем принятия решений, которые ранее были недоступны для компьютера, чтобы думать как человек. Чтобы справиться со сложными последовательными проблемами принятия решений, глубокое обучение с подкреплением сочетает методы глубокого обучения с обучением с подкреплением. Глубокое обучение особенно полезно для решения проблем с многомерными пространствами состояний. Благодаря своей способности изучать данные на многих уровнях абстракции, глубокое обучение позволяет обучаться с подкреплением для решения более сложных проблем с меньшим объемом предварительной информации.

Во многих играх для двух или даже нескольких игроков глубокое обучение с подкреплением достигло производительности на уровне или даже выше, чем у людей. Эти успехи с хорошо известными играми заслуживают внимания, поскольку они демонстрируют потенциал глубокого обучения с подкреплением в ряде сложных и разнообразных задач, которые зависят от многомерных входных данных. С помощью игр мы можем быстро производить бесконечное количество данных и создавать достойные или даже идеальные симуляторы.

Вот несколько игр, в которых использовался Deep RL:

1. Игры для Атари 2600

2. АльфаГо

3. Покер

4. Дота 2

При использовании алгоритмов глубокого обучения с подкреплением возникает несколько трудностей. Вообще говоря, сложно эффективно исследовать мир или обобщать отличное поведение в немного другой ситуации. В связи с широким диапазоном настроек для последовательных задач принятия решений, для фреймворка глубокого обучения с подкреплением было разработано несколько методов.

Одна из таких проблем при использовании Deep RL в реальности, даже если цель четко сформулирована, основная проблема заключается в том, что иногда нецелесообразно позволять агенту адекватно и свободно участвовать в реальном мире из-за соображений безопасности, финансов или времени.

Кроме того, существует проблема разрыва в реальности. Могут быть обстоятельства, когда агент может взаимодействовать только с ошибочной симуляцией мира, а не с реальной вещью. Несоответствие между полезной областью реального мира и обучающей симуляцией известно как разрыв реальности.

Мы ожидаем, что алгоритмы глубокого подкрепления в конечном итоге пойдут в направлении метаобучения. Чтобы повысить производительность и сэкономить время обучения, предварительная информация может быть интегрирована, например, в виде уже обученных глубоких нейронных сетей. Способность машин изучать сложные вопросы принятия решений в симуляциях, а затем применять полученные навыки в реальных условиях совершенствуется.