1. Масштабируемое байесовское метаобучение с помощью обобщенных неявных градиентов (arXiv)

Автор: Илан Чжан, Бингконг Ли, Шицзянь Гао, Георгиос Б. Яннакис.

Аннотация: Мета-обучение обладает уникальной эффективностью и скоростью решения возникающих задач с ограниченными данными. Его широкая применимость раскрывается при рассмотрении его как задачи двухуровневой оптимизации. Однако результирующая алгоритмическая точка зрения сталкивается с проблемами масштабируемости, когда оптимизация на внутреннем уровне опирается на итерации на основе градиента. Считалось, что неявная дифференциация облегчает эту проблему, но она ограничена изотропным гауссовым априорным значением и благоприятствует только детерминированным подходам метаобучения. Эта работа заметно смягчает узкое место масштабируемости за счет перекрестного обогащения преимуществ неявной дифференциации вероятностного байесовского метаобучения. Новый метод неявного байесовского метаобучения (iBaML) не только расширяет объем обучаемых априорных значений, но и дает количественную оценку связанной с этим неопределенности. Кроме того, предельная сложность хорошо контролируется независимо от траектории оптимизации внутреннего уровня. Границы аналитической ошибки устанавливаются для демонстрации точности и эффективности обобщенного неявного градиента по сравнению с явным. Также проводятся обширные численные тесты для эмпирической проверки эффективности предлагаемого метода.

2. Параметризованные оптимизаторы первого порядка для метаобучения с использованием дифференцируемой выпуклой оптимизации (arXiv)

Автор: Танмай Гаутам, Сэмюэль Пфроммер, Сомайе Соджуди.

Аннотация: Обычные методы оптимизации в машинном обучении и средствах управления в значительной степени зависят от правил обновления первого порядка. Выбор правильного метода и гиперпараметров для конкретной задачи часто включает в себя метод проб и ошибок или интуицию практикующего, что мотивирует область метаобучения. Мы обобщаем большое семейство ранее существовавших правил обновления, предлагая структуру метаобучения, в которой шаг оптимизации внутреннего цикла включает решение дифференцируемой выпуклой оптимизации (DCO). Мы иллюстрируем теоретическую привлекательность этого подхода, показывая, что он позволяет выполнять одношаговую оптимизацию семейства линейных задач наименьших квадратов, при условии, что мета-учащийся достаточно знаком с аналогичными задачами. Различные экземпляры правила обновления DCO сравниваются с обычными оптимизаторами в ряде иллюстративных экспериментальных настроек.