Являются ли агенты RL более человечными, когда не ищут награды?

Хотя человеческим младенцам не ставится такая задача, они естественным образом ползают и взаимодействуют с объектами — процесс исследования, который играет огромную роль в развитии их понимания физики и окружающей среды. Это наблюдение вдохновило исследователей машинного обучения на изучение внутренней мотивации, которая направлена на выявление и предоставление агентам математических целей, которые не зависят от конкретной задачи и могут быть применены к любой неизвестной среде.

Чтобы ускорить разработку внутренних целей для агентов обучения с подкреплением (RL),группа исследователей из Vector Institute, Университета Торонто и Google Brain недавно изучила три распространенных типа внутренней мотивации для семи агентов, трех игр Atari и 3D-игра Minecraft. Они обнаружили, что все три внутренние цели сильнее коррелируют с метрикой сходства человеческого поведения, чем с вознаграждением за какое-либо задание.

По сути, RL работает, позволяя независимым агентам принимать решения и решать сложные задачи в моделируемой среде. Агенты неоднократно наказываются или вознаграждаются в зависимости от того, насколько хорошо они справляются с задачей, и в конечном итоге они изучают функцию вознаграждения, которая максимизирует вознаграждение и минимизирует наказание для достижения успеха в сложных задачах.

«К сожалению, разработка информативных функций вознаграждения часто является дорогостоящей, трудоемкой и подверженной человеческим ошибкам», — отмечает команда, и это болевая точка существующих подходов RL. Многие предыдущие исследования вдохновлялись младенцами, поскольку эти естественные агенты учатся без внешних задач, а скорее через внутренние цели.

Команда изучила три распространенных типа внутренней мотивации в своей работе Оценка агентов без вознаграждения.

Входная энтропия побуждает к встрече с редкими сенсорными данными, измеряемыми с помощью изученной модели плотности
Получение информации вознаграждает агента за обнаружение правил своей среды
Расширение возможностей вознаграждает агента за максимальное влияние, которое он оказывает на свои сенсорные входы или окружающую среду

Исследователи оценили различные внутренние цели, собрав разнообразный набор данных о различных средах и поведении и ретроспективно вычислив из него цели агентов. Анализируя корреляции между внутренними целями и контролируемыми целями, такими как вознаграждение за выполнение задачи и сходство с людьми, исследователи смогли определить отношения между различными внутренними целями без обучения нового агента для каждой цели, что ускорило время итерации.

В целях оценки команда использовала 100 миллионов кадров из трех игровых сред Atari для обучения семи агентов: случайных, неактивных, PPO, а также версий агентов RND и ICM с вознаграждением за задание и без него. Для среды 3D-игры Minecraft при оценке использовалось 12 миллионов кадров на агента, поскольку эта симуляция медленнее, чем у Atari. Для контролируемой цели «человеческое сходство» команда приняла человеческое поведение за основу и вычислила сходство между поведением агентов и людей в одной и той же среде.

В тестах во всех средах три внутренние цели сильнее коррелировали с метрикой сходства человеческого поведения, чем с наградами за выполнение задачи, что позволяет предположить, что внутренние цели более важны, чем типичные награды за выполнение задачи, если целью является создание агентов, которые ведут себя как люди. .

Исследователи отмечают, что текущий набор данных о людях относительно невелик для определения значений человеческого сходства. Они предполагают, что дополнительные человеческие данные, а также знание того, какие инструкции получили человеческие агенты, помогут в дальнейшей работе в этой области.

Статья Оценка агентов без вознаграждения находится на arXiv, а исходный код для воспроизведения анализов и собранных данных можно найти на веб-сайте соавтора Данияра Хафнера.

Репортер: Фанъюй Цай | Редактор: Майкл Саразен

Синхронизированный отчет | Обзор китайских решений искусственного интеллекта в ответ на пандемию COVID-19 — 87 тематических исследований от более чем 700 поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использует технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Вместе с этим отчетом мы также представили базу данных, охватывающую дополнительные 1428 решений искусственного интеллекта для 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия.Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Являются ли агенты RL более человечными, когда не ищут награды?

Вопросы по теме