Понимание мира через действие: RL как основа для масштабируемого самоконтролируемого обучения

Системы машинного обучения справились с широким спектром сложных проблем в самых разных областях, от компьютерного зрения до распознавания речи и обработки естественного языка, и тем не менее вопрос о том, как разработать системы, способствующие обучению, которые соответствуют гибкости и универсальности человеческого мышления, остается недосягаемым. Это вызвало широкую дискуссию о том, что может быть «недостающий ингредиент» в современном машинном обучении, и ряд гипотез выдвинули как большой вопрос, который эта область должна решить. Является ли недостающий ингредиент причинным рассуждением, индуктивной предвзятостью, лучшими алгоритмами самостоятельного или неконтролируемого обучения или чем-то совершенно другим?

Это сложный вопрос, и любой ответ обязательно должен включать много предположений, но уроки, которые мы можем извлечь из недавнего прогресса в области искусственного интеллекта, могут дать нам несколько руководящих принципов.

Первый урок заключается в необоснованной эффективности больших общих моделей, снабженных большими объемами обучающих данных. Как красноречиво сформулировал Ричард Саттон в своем эссе о горьком уроке, а также ряд других исследователей в области машинного обучения, в новейшей истории исследований машинного обучения постоянная тема заключалась в том, что методы, которые эффективно используют большие объемы вычислений и больших объемов данных часто превосходят методы, основанные на вручную разработанных априорных и эвристических методах. Хотя полное обсуждение причин этой тенденции выходит за рамки данной статьи, вкратце их можно резюмировать (или, возможно, карикатурно) следующим образом: когда мы разрабатываем предвзятость или априорность для наших моделей, мы вводим наши собственные несовершенные знания о как устроен мир, что смещает модель в сторону одних решений по сравнению с другими. Когда модель вместо этого собирает эти знания из данных, она приходит к более точным выводам, чем те, которые мы спроектировали сами, и, следовательно, будет работать лучше. Действительно, похожая картина наблюдалась в том, как люди приобретают профессиональные навыки. Как обсуждал Дрейфус, основанное на правилах рассуждение, которое следует правилам, которые мы можем четко сформулировать, имеет тенденцию обеспечивать людей только результатами уровня новичка с различными навыками, в то время как производительность уровня эксперта связана с беспорядок из особых случаев, исключений и шаблонов, которые люди не могут четко сформулировать, но которые могут беспрепятственно использовать в тот момент, когда этого требует ситуация. Как указывает Дрейфус, настоящие эксперты-люди редко могут сформулировать правила, которым они на самом деле следуют, демонстрируя свои знания, и поэтому неудивительно, что так же, как мы должны приобретать знания на основе опыта, должны поступать и наши машины. А для этого им потребуются мощные модели с большим объемом возможностей, которые налагают сравнительно небольшое количество предубеждений и могут справиться с большим объемом необходимого опыта.

Второй, более свежий урок заключается в том, что ручная маркировка и супервизия не так хороши, как неконтролируемое или самостоятельное обучение. Мы уже видели, что предварительное обучение без учителя стало стандартом в обработке естественного языка и, возможно, скоро станет стандартом для других областей. В некотором смысле этот урок является следствием первого: если большие модели и большие наборы данных являются наиболее эффективными, то все, что ограничивает размер моделей и наборов данных, в конечном итоге станет узким местом. Человеческий контроль может быть одним из таких узких мест: если все данные должны быть помечены вручную человеком, тогда системе будет доступно меньше данных для обучения. Однако здесь мы приходим к загадке: современные методы обучения без человеческих ярлыков часто нарушают принципы, изложенные в первом уроке, требуя значительного человеческого понимания (которое часто зависит от предметной области!) Для разработки целей обучения с самоконтролем, которые позволяют большим моделям получить значимые знания из немаркированных наборов данных. К ним относятся относительно естественные задачи, такие как языковое моделирование, а также сравнительно более эзотерические задачи, такие как предсказание, были ли два преобразованных изображения созданы одним и тем же исходным изображением или двумя разными. Последний - широко используемый и успешный подход в современном обучении компьютерному зрению с самоконтролем. Хотя такие подходы могут быть эффективными до определенного момента, вполне возможно, что следующим узким местом, с которым мы столкнемся, будет решение о том, как обучать большие модели, не требуя ручной маркировки или ручного проектирования самоконтролируемых целей, чтобы получить модели, которые позволяют извлекать максимальную выгоду. глубокое и осмысленное понимание мира и возможность выполнять последующие задачи с надежностью обобщения и даже со степенью здравого смысла.

Я буду утверждать, что такая методология может быть разработана на основе существующих алгоритмов управления на основе обучения (обучение с подкреплением), хотя для этого потребуется ряд существенных алгоритмических нововведений, которые позволят таким методам значительно выйти за рамки тех проблем, с которыми они сталкивались. способен справиться до сих пор. Центральным в этой идее является представление о том, что для управления окружающей средой разнообразными и целенаправленными способами автономные агенты обязательно должны будут развить понимание своей среды, которое является причинным и обобщаемым, и, следовательно, будут устранять многие недостатки текущие контролируемые модели. В то же время это потребует выхода за рамки существующей парадигмы обучения с подкреплением по двум важным направлениям. Во-первых, алгоритмы обучения с подкреплением требуют, чтобы цель задачи (то есть функция вознаграждения) была указана пользователем вручную, а затем изучать поведение, необходимое для достижения этой цели задачи. Это, конечно, сильно ограничивает их способность учиться без присмотра человека. Во-вторых, алгоритмы обучения с подкреплением, которые широко используются сегодня, по своей сути не управляются данными, а скорее учатся на опыте онлайн, и хотя такие методы могут быть развернуты непосредственно в реальных средах, активный онлайн-сбор данных ограничивает их обобщение в таких условиях, и многие виды использования обучения с подкреплением вместо этого имеют место в моделировании, где мало возможностей узнать, как работает реальный мир.

Обучение через действие

В той мере, в какой системы искусственного интеллекта полезны, это потому, что они предоставляют заключения, которые можно использовать для принятия решений, которые, в свою очередь, влияют на что-то в мире. Следовательно, разумно сделать вывод, что общая цель обучения должна быть такой, которая дает стимул к изучению тех вещей, которые наиболее полезны для значимого воздействия на мир. Принятие решений, которые приводят к желаемым результатам, входит в компетенцию обучения с подкреплением и контроля. Следовательно, мы должны подумать, как обучение с подкреплением может обеспечить автоматические и принципиальные цели для обучения высокопроизводительных моделей, которые могут наделить их способностью понимать, рассуждать и обобщать.

Однако это потребует устранения двух ограничений: обучение с подкреплением требует определенных вручную функций вознаграждения и требует активной парадигмы обучения, которую трудно согласовать с необходимостью обучения на больших и разнообразных наборах данных. Чтобы решить проблему с помощью целей, мы можем разработать алгоритмы, которые вместо того, чтобы нацеливаться на выполнение одной определенной пользователем задачи, скорее нацелены на достижение любых результатов, которые, по их мнению, возможны в мире. Потенциальные цели для таких методов могут включать обучение достижению любого возможного состояния, обучение максимальному использованию взаимной информации между скрытыми целями и результатами или обучение через принципиальные цели внутренней мотивации, которые приводят к широкому охвату возможных результатов. Чтобы решить проблему с данными, мы должны разработать алгоритмы обучения с подкреплением, которые могут эффективно использовать ранее собранные наборы данных. Это алгоритмы автономного обучения с подкреплением, и они могут обеспечить путь к обучению систем RL на широких и разнообразных наборах данных во многом таким же образом, как и при обучении с учителем, с последующей некоторой активной тонкой настройкой в режиме онлайн для достижения максимальной производительности.

Чтобы предоставить гипотетический пример системы, которая воплощает эти идеи, представьте себе робота, который выполняет различные манипуляции (например, как на приведенном выше примере). Когда ему дается указанная пользователем цель, робот выполняет эту цель. Однако в свое «свободное время» робот представляет потенциальные результаты, которые он может произвести, а затем «практикует» действия для их достижения. Каждое такое практическое занятие углубляет понимание причинной структуры мира. Используя автономный RL, такая система будет извлекать уроки не только из опыта, который она активно накапливает в сети, но и из всего предыдущего зарегистрированного опыта во всех разнообразных ситуациях, с которыми она сталкивалась.

Конечно, представление о реальной коммерчески развернутой роботизированной системе, которая играет со своим окружением таким образом, может показаться надуманным (это также, конечно, не новая идея). Именно поэтому автономный RL важен: поскольку автономный алгоритм был бы сравнительно безразличен к источнику опыта, часть времени, которое робот тратит на выполнение заданных пользователем целей по сравнению с игрой, может можно настроить до любого крайнего значения, и даже система, которая все свое время тратит на выполнение заданных пользователем задач, может по-прежнему использовать весь накопленный опыт в качестве автономных обучающих данных для обучения для достижения любого результата. Такая система по-прежнему будет играть со своим окружением, но только виртуально, в своей памяти.

Хотя роботизированные системы могут быть наиболее очевидной областью, в которой можно реализовать этот дизайн, он не ограничивается робототехникой или системами, которые воплощены в мире аналогично людям. Таким образом можно обучить любую систему с четко определенным представлением о действиях: рекомендательные системы, автономные транспортные средства, системы управления запасами и логистикой, диалоговые системы и т. Д. Онлайн-исследование может оказаться невозможным во многих из этих условий, но обучение с неконтролируемыми целями, ориентированными на результат, с помощью автономного RL все еще возможно. Как упоминалось ранее, системы машинного обучения полезны, поскольку позволяют принимать разумные решения. Следовательно, само собой разумеется, что любая полезная система машинного обучения находится в последовательном процессе, в котором возможно принятие решений, и поэтому такая процедура обучения с самоконтролем должна быть применима.

Самостоятельное и неконтролируемое обучение с подкреплением

Метод обучения с подкреплением без учителя или с самоконтролем должен соответствовать двум критериям: он должен изучать поведение, которое осмысленно контролирует мир, и он должен обеспечивать некоторый механизм, позволяющий научиться управлять им как можно большим количеством способов. Эту проблему не следует путать с тесно связанной проблемой исследования, которая также часто формулируется как проблема достижения широкого охвата, но которая обычно не связана с обучением осмысленным образом управлять миром при отсутствии цели задачи. . То есть методы исследования обеспечивают цель сбора данных, а не их использования.

Возможно, самый прямой способ сформулировать цель RL с самоконтролем - это сформулировать ее как проблему достижения целевого состояния. Тогда проблема соответствует обучению политике, обусловленной целью. Эта формулировка задачи обеспечивает значительную глубину и связана с оценкой плотности, вариационным выводом и обучением с подкреплением на основе моделей.

Что политика, обученная для достижения всех возможных целей, узнает о мире? Решение таких целенаправленных задач RL соответствует изучению своего рода динамической модели. Интуитивно для того, чтобы добиться любого потенциального желаемого результата, необходимо глубокое понимание того, как действия влияют на окружающую среду в долгосрочной перспективе. Однако, в отличие от основанного на модели RL, где цель модели в значительной степени не связана с фактическим достижением желаемых результатов, цель RL, обусловленная целью, напрямую связана с долгосрочными результатами. Следовательно, поскольку конечной целью системы машинного обучения является достижение желаемых результатов, мы могли бы ожидать, что цель обусловленного целями RL будет хорошо согласована.

Однако современные методы не лишены ограничений. Даже стандартные целевые методы RL могут быть трудными в использовании и нестабильными. Но что еще более важно, достижение цели не охватывает весь набор возможных задач, которые можно было бы указать в RL. Даже если агент научится достигать всех возможных результатов в данной среде, может не существовать ни одного желаемого результата, который максимизировал бы произвольную функцию вознаграждения, заданную пользователем. По-прежнему может быть, что такая политика, ориентированная на цели, могла бы научиться мощным и широко применимым функциям и могла бы быть легко адаптирована к последующей задаче, но интересная проблема для будущей работы состоит в том, чтобы лучше понять, могут ли более универсальные самоконтрольные цели решить это ограничение, возможно, основанное на методах общего неконтролируемого обучения навыкам.

Офлайн-обучение с подкреплением

Как обсуждалось ранее, автономный RL может дать возможность применять методы RL с самоконтролем или без него даже в тех условиях, где онлайн-сбор невозможен, и такие методы могут служить одним из самых мощных инструментов для включения больших и разнообразных наборов данных в самоконтроль. RL. Вероятно, это будет необходимо для того, чтобы сделать это действительно жизнеспособным и универсальным инструментом для изучения крупномасштабных представлений. Однако автономный RL представляет ряд проблем. Прежде всего, автономный RL требует ответов на контрфактические вопросы: учитывая данные, которые показывают один результат, можем ли мы предсказать, что произошло бы, если бы мы предприняли другое действие? Это, конечно, очень сложно в целом.
Тем не менее, наше понимание автономного RL значительно продвинулось за последние несколько лет, со значительным улучшением производительности (см., Например, IQL).

Достижения в автономном RL могут значительно увеличить применимость методов RL с самоконтролем. Используя инструменты автономной RL, можно создавать методы RL с самоконтролем, которые сами по себе не требуют какого-либо исследования. Подобно виртуальной игре, упомянутой ранее, мы можем использовать автономный RL в сочетании с целевыми политиками, чтобы полностью изучить ранее собранные данные. На рисунках выше показаны несколько примеров, иллюстрирующих применение политик, обусловленных целями, к сложным реальным задачам обучения роботов, когда роботы учатся ориентироваться в различных средах или выполнять широкий спектр задач манипулирования, полностью используя данные, собранные ранее для других приложений. Такие методы могут даже обеспечивать мощные вспомогательные цели с самоконтролем или предварительное обучение для последующих заданных пользователем задач аналогично неконтролируемым методам предварительного обучения в других областях (например, BERT). Однако автономные алгоритмы RL наследуют многие трудности стандартных (глубоких) методов RL, включая чувствительность к гиперпараметрам. Эти трудности еще больше усугубляются тем фактом, что мы не можем проводить несколько онлайн-испытаний для определения лучших гиперпараметров. В контролируемом обучении мы можем справиться с такими проблемами, используя набор проверки, но соответствующий эквивалент в автономном RL отсутствует. Нам нужны более стабильные и надежные алгоритмы, а также эффективные методы оценки, чтобы сделать такие подходы действительно широко применимыми.

Заключительные замечания

Я обсуждал, как самостоятельное обучение с подкреплением в сочетании с автономным RL может обеспечить обучение с масштабируемым представлением. В той мере, в какой изученные модели полезны, это потому, что они позволяют нам принимать решения, которые приводят к желаемому результату в мире. Таким образом, обучение под самоконтролем с целью достижения любого возможного результата должно дать таким моделям необходимое понимание того, как устроен мир. Самоконтролируемые цели RL, такие как цели в RL с целевым назначением, имеют тесную связь с модельным обучением, и выполнение таких задач, вероятно, потребует политики для получения функционального и причинного понимания среды, в которой они находятся. Однако для того, чтобы такие методы были полезными, их необходимо масштабно применять к реальным наборам данных. Автономный RL может играть эту роль, потому что он позволяет использовать большие, разнообразные ранее собранные наборы данных. Объединение этих частей может привести к новому классу алгоритмов, которые могут понять мир посредством действий, что приведет к действительно масштабируемым и автоматизированным методам.

Эта статья представляет собой измененную и слегка сокращенную версию статьи Понимание мира через действие, которая появится в CoRL 2021 (Blue Sky Track), представленной в ноябре 2021 года в Лондоне, Великобритания.

Понимание мира через действие: RL как основа для масштабируемого самоконтролируемого обучения

Вопросы по теме