1. Требуется некоторый контроль: включение политик Oracle в обучение с подкреплением с помощью метрик эпистемической неопределенности (arXiv)

Автор: Jun Jet Tai, Jordan K. Terry, Mauro S. Innocente, James Brusey, Nadjim Horri.

Аннотация: Неотъемлемой проблемой обучения с подкреплением является исследование окружающей среды с помощью случайных действий, большая часть которых может быть непродуктивной. Вместо этого исследование можно улучшить, инициализировав политику обучения с помощью существующей (ранее изученной или жестко закодированной) политики оракула, автономных данных или демонстраций. В случае использования политики оракула может быть неясно, как лучше всего включить опыт политики оракула в политику обучения таким образом, чтобы максимизировать эффективность обучающей выборки. В этой статье мы предлагаем метод под названием «Управляемое исследование доверия критиков» (CCGE) для включения такой политики оракула в стандартные алгоритмы обучения с подкреплением «актер-критик». В частности, CCGE рассматривает действия политики оракула как предложения и включает эту информацию в схему обучения, когда неопределенность высока, и игнорирует ее, когда неопределенность низкая. CCGE не зависит от методов оценки неопределенности, и мы показываем, что он одинаково эффективен при использовании двух разных методов. Эмпирически мы оцениваем влияние CCGE на различные тестовые задачи обучения с подкреплением и показываем, что эта идея может привести к повышению эффективности выборки и итоговой производительности. Кроме того, при оценке в средах с разреженным вознаграждением CCGE может конкурировать с соседними алгоритмами, которые также используют политику оракула. Наши эксперименты показывают, что можно использовать неопределенность в качестве эвристики для направления исследования с использованием оракула в обучении с подкреплением. Мы ожидаем, что это вдохновит на дальнейшие исследования в этом направлении, в которых используются различные эвристики для определения направления обучения.

2. Анализ избыточного риска эпистемической неопределенности с применением вариационного вывода (arXiv)

Автор: Футоши Футами, Томохару Ивата, Наонори Уэда, Иссей Сато, Масаси Сугияма.

Аннотация: байесовское глубокое обучение играет важную роль, особенно благодаря его способности оценивать эпистемическую неопределенность (EU). Из-за проблем вычислительной сложности на практике использовались методы аппроксимации, такие как вариационный вывод (VI), для получения апостериорных распределений, и их возможности обобщения были тщательно проанализированы, например, с помощью теории PAC-Байеса; однако для EU существует мало анализа, хотя с ним было проведено много численных экспериментов. В этом исследовании мы анализируем ЕС контролируемого обучения в приближенном байесовском выводе, сосредоточив внимание на его избыточном риске. Во-первых, мы теоретически показываем новые отношения между ошибкой обобщения и широко используемыми измерениями ЕС, такими как дисперсия и взаимная информация прогностического распределения, и выводим их поведение сходимости. Далее мы выясняем, как целевая функция VI упорядочивает ЕС. С помощью этого анализа мы предлагаем новую целевую функцию для VI, которая непосредственно контролирует эффективность прогнозирования и EU на основе PAC-байесовской теории. Численные эксперименты показывают, что наш алгоритм значительно улучшает оценку EU по сравнению с существующими методами VI.