1. О правилах оценки второго порядка для количественной оценки эпистемической неопределенности (arXiv)

Автор : Виктор Бенгс, Эйке Хюллермайер, Виллем Вагеман.

Аннотация: Хорошо известно, что точные вероятностные предикторы могут быть обучены путем минимизации эмпирического риска с использованием правильных правил подсчета очков в качестве функций потерь. В то время как такие учащиеся улавливают так называемую алеаторическую неопределенность прогнозов, недавно были разработаны различные методы машинного обучения с целью позволить учащимся также представлять свою эпистемическую неопределенность, то есть неопределенность, вызванную отсутствием знаний и данных. В новой области литературы предлагается использовать учащегося второго порядка, который дает прогнозы с точки зрения распределений вероятностных распределений. Однако недавняя работа выявила серьезные теоретические недостатки предикторов второго порядка, основанных на минимизации потерь. В этой статье мы обобщаем эти результаты и доказываем более фундаментальный результат: по-видимому, не существует функции потерь, которая побуждала бы учащегося второго порядка достоверно представлять свою эпистемическую неопределенность так же, как правильные правила оценки делают для стандартного ( ученики первого порядка). В качестве основного математического инструмента для доказательства этого результата мы вводим обобщенное понятие правил подсчета очков второго порядка.

2.E-MCTS: глубокое исследование обучения с подкреплением на основе моделей путем планирования с эпистемической неопределенностью (arXiv)

Автор: Янив Орен, Маттейс Т. Дж. Спаан, Венделин Бёмер.

Аннотация: Одним из наиболее хорошо изученных и высокоэффективных подходов к планированию, используемых в обучении с подкреплением на основе моделей (MBRL), является поиск по дереву Монте-Карло (MCTS). Ключевые проблемы методов MBRL на основе MCTS остаются посвященными глубокому исследованию и надежности перед лицом неизвестного, и обе проблемы могут быть смягчены с помощью принципиальной оценки эпистемической неопределенности в прогнозах MCTS. Мы представляем два основных вклада: во-первых, мы разрабатываем методологию распространения эпистемической неопределенности в MCTS, позволяющую агентам оценивать эпистемическую неопределенность в своих прогнозах. Во-вторых, мы используем распространяющуюся неопределенность для нового алгоритма глубокого исследования, явно планируя исследование. Мы включаем наш подход в варианты подходов MBRL на основе MCTS с изученными и предоставленными моделями и эмпирически демонстрируем глубокое исследование посредством успешной оценки эпистемической неопределенности, достигнутой нашим подходом. Мы сравниваем с базовым уровнем глубокого исследования, не основанным на планировании, и демонстрируем, что планирование с помощью эпистемической MCTS значительно превосходит исследование, не основанное на планировании, в исследованных условиях.