1. Приоритеты метаобучения для безопасной байесовской оптимизации (arXiv)

Автор:Йонас Ротфус, Кристофер Кениг, Алиса Рупенян, Андреас Краузе

Аннотация:В робототехнике оптимизация параметров контроллера в условиях ограничений безопасности является важной задачей. Безопасная байесовская оптимизация (БО) позволяет количественно определить неопределенность цели и ограничения для безопасного проведения исследований в таких условиях. Однако разработка подходящей вероятностной модели вручную может быть сложной задачей. При наличии неизвестных ограничений безопасности крайне важно выбрать надежные гиперпараметры модели, чтобы избежать нарушений безопасности. Здесь мы предлагаем подход к этой проблеме, основанный на данных, путем априорного метаобучения для безопасного BO из автономных данных. Мы строим алгоритм метаобучения F-PACOH, способный обеспечить надежную количественную оценку неопределенности в условиях нехватки данных. В качестве основного вклада мы разрабатываем новую структуру для выбора априорных значений, соответствующих требованиям безопасности, на основе данных с помощью эмпирических показателей неопределенности и алгоритма граничного поиска. На контрольных функциях и высокоточной системе движения мы демонстрируем, что наши метаобученные априорные данные ускоряют конвергенцию безопасных подходов BO при сохранении безопасности.

2. Метаобучение с учетом неопределенности для мультимодальных распределений задач (arXiv)

Автор:Сезар Алмеция, Апурва Шарма, Навид Азизан

Аннотация . Метаобучение или обучение обучению – это популярный подход к обучению новым задачам с ограниченными данными (т. е. поэтапное обучение) путем использования общих черт различных задач. Однако модели с метаобучением могут работать плохо, когда контекстные данные ограничены или когда данные извлекаются из задачи вне распространения (OoD). Это требует подхода к метаобучению, учитывающего неопределенность, особенно в критически важных для безопасности условиях. Кроме того, часто мультимодальный характер распределения задач может создавать уникальные проблемы для методов метаобучения. В этой работе мы представляем UnLiMiTD (мета-обучение с учетом неопределенности для мультимодального распределения задач), новый метод мета-обучения, который (1) эффективно делает вероятностные прогнозы для задач в распределении, (2) способен обнаруживать контекст OoD. данных во время тестирования и (3) выполняет разнородные мультимодальные распределения задач. Для достижения этой цели мы используем вероятностную перспективу и обучаем параметрическое, настраиваемое распределение по задачам в наборе метаданных. Мы строим это распределение, выполняя байесовский вывод на линеаризованной нейронной сети, используя теорию гауссовских процессов. Мы демонстрируем, что прогнозы UnLiMiTD выгодно отличаются от стандартных базовых показателей, а в большинстве случаев превосходят их, особенно в режиме с низким объемом данных. Кроме того, мы показываем, что UnLiMiTD эффективен при обнаружении данных из задач OoD. Наконец, мы подтверждаем, что оба этих вывода остаются в силе в условиях мультимодального распределения задач.

3. Метаобучение в играх (arXiv)

Автор: Киган Харрис, Иоаннис Анагностидес, Габриэле Фарина, Михаил Ходак, Живей Стивен Ву, Туомас Сандхольм

Аннотация: В литературе по теоретико-игровому поиску равновесия основное внимание уделялось решению одной изолированной игры. На практике, однако, стратегические взаимодействия — от проблем маршрутизации до онлайн-аукционов рекламы — развиваются динамично, что приводит к решению многих подобных игр. Чтобы восполнить этот пробел, мы вводим метаобучение для нахождения равновесия и обучения играм. Мы устанавливаем первые гарантии метаобучения для различных фундаментальных и хорошо изученных классов игр, включая игры с нулевой суммой для двух игроков, игры с общей суммой и игры Штакельберга. В частности, мы получаем скорости сходимости к различным теоретико-игровым равновесиям, которые зависят от естественных представлений о сходстве между встречающимися последовательностями игр, и в то же время восстанавливаем известные гарантии одиночной игры, когда последовательность игр произвольна. Попутно мы доказываем ряд новых результатов в режиме одиночной игры через простой и унифицированный каркас, которые могут представлять самостоятельный интерес. Наконец, мы оцениваем наши алгоритмы метаобучения на эндшпилях, с которыми покерный агент Libratus сталкивается с лучшими профессионалами. Эксперименты показывают, что игры с различными размерами стеков можно решать значительно быстрее, используя наши методы метаобучения, чем если решать их по отдельности, часто на порядок.