Это был мой второй визит в CVPR, который в этом году был в Лонг-Бич. С 9 тысячами участников и сессиями, расположенными в 3 зданиях, у меня была возможность встретить умных людей, узнать о некоторых интересных исследованиях и ежедневно выполнять свою цель в 10 тысяч шагов: D.

Я решил пойти на семинар по метаобучению, потому что хотел узнать об обучении, чтобы учиться: D. Это был один из самых популярных руководств; за 20 минут до запланированного времени старта не было места для стоянки.

Выводы на высшем уровне

  • Что такое метаобучение? Мета-обучение, известное как «обучение, чтобы учиться», - это изучение мета-знаний из аналогичных задач, что позволяет системам искусственного интеллекта изучать новые задачи с помощью небольшого количества примеров; вместо изучения отдельных заданий с нуля с большим количеством примеров для каждого задания.
  • Мета-обучение против автоматического машинного обучения? Я видел, как метаобучение и автоматическое машинное обучение часто используются как взаимозаменяемые в неформальной обстановке. Для тех из вас, кого это тоже смущает, метаобучение - это подполе Auto ML, которая в более широком смысле ориентирована на автоматизацию процесса машинного обучения путем изучения правильных параметров / архитектур модели с использованием различных методов, таких как оптимизация гиперпараметров, нейронная архитектура. поиск и мета-обучение. Мета-обучение, вместо этого, сосредоточено на части обучения на основе предыдущих задач (мета-знания) таким образом, чтобы обеспечить быстрое обучение новым задачам, тем самым автоматизируя часть процесса обучения.
  • Мета-обучение или трансферное обучение? И мета-обучение, и трансферное обучение пытаются использовать прошлое обучение для изучения новых задач. Трансферное обучение иногда рассматривается как частный случай метаобучения. В то время как мета-обучение извлекает мета-знания из прошлого обучения и обучает мета-учащегося руководить будущим обучением; трансферное обучение напрямую использует конечные или промежуточные результаты (например, предварительное обучение) прошлого обучения. Подробнее об этом можно прочитать здесь.
  • Мета-обучение привлекательно для нескольких областей, где аннотирование данных стоит дорого. Текущие результаты, показанные на наборах данных тестов, выглядят многообещающими, но нам еще предстоит увидеть, как это используется в реальных приложениях.
  • Мне было удивительно видеть семинар по метаобучению на конференции по компьютерному зрению, потому что он не относится к компьютерному зрению. Тем не менее, я считаю это целесообразным, поскольку большая часть работы в этой области использует задачи компьютерного зрения, такие как распознавание символов и классификация изображений, сегментация изображения для оценки позы и синтез изображений.

Ниже приведены более подробные записи некоторых выступлений на семинаре.

Обсуждение: метаобучение для быстрого обучения (Челси Финн)

Немногочисленное обучение - это задача обучения на нескольких примерах. В этом выступлении был дан отличный обзор подходов к мета-обучению для этого:

  1. Адаптация к черному ящику (на основе модели): подходы, которые используют память модели или повторение для быстрого изучения обобщенных представлений задач. Примеры этого включают использование нейронных сетей с расширенной памятью (таких как нейронные машины Тьюринга или сети памяти)
  2. На основе оптимизации: подходы, использующие градиентный спуск для изучения параметров мета-учащегося, который обновляет другую сеть (учащегося), чтобы учащийся эффективно изучал задачу. Этот метаобучающийся может быть отдельной моделью, как в случае с Рави и Ларошель (с использованием метаученика LSTM), или неявной, как в MAML, где метаобучение изменяет только способ обновления градиентов, и нет никаких дополнительных моделей или параметров.
  3. Непараметрические (также называемые метрическими): подходы, которые изучают какую-то метрику расстояния между входными выборками. Для изучения новых задач это метрическое пространство используется для встраивания объектов, а затем используется подход ближайших соседей во время вывода. Примеры этого включают: Сиамские сети, Соответствующие сети, Сеть отношений и Прототипные сети.

В то время как описанные выше параметрические подходы вычисляют точечную оценку параметров метаобучающихся, байесовское метаобучение пытается изучить распределение параметров метаобучающихся, чтобы учесть неопределенность в распределении задач. В этой статье утверждается, что это полезно для критически важных для безопасности систем, а также для обучения активному обучению. Блог здесь дает расширенную мотивацию. Соответствующие статьи для дальнейшего чтения:

  1. Байесовское метаобучение черный ящик: VERSA
  2. Мета-обучение на основе байесовской оптимизации: BMAML, Вероятностный MAML, Амортизированное байесовское мета-обучение

Она также вкратце рассказала о приложениях для метаобучения (включая создание новых точек зрения и говорящие головы из изображений среди прочего) и Meta-RL. Подробнее см .: Слайды.

Дальнейшее чтение:

Обсуждение: Мета-обучение в области компьютерного зрения и НЛП (Нитиш Кескар)

По словам докладчика, он пошел на «мошенничество», рассказав о НЛП на конференции по компьютерному зрению. Мне не удалось записать полезные заметки или найти его слайды, чтобы восстановить что-нибудь полезное.

Обсуждение: поиск нейронной архитектуры (Нихил Найк)

Поиск нейронной архитектуры (NAS), как следует из названия, пытается найти оптимальную архитектуру NN. Этот процесс традиционно выполняется специалистами по машинному обучению. Это требует времени и подвержено ошибкам, отсюда и мотивация автоматизировать его. NAS обычно считается подполем AutoML, но имеет некоторое совпадение с мета-обучением и оптимизацией гиперпараметров в том смысле, что поиск правильной архитектуры можно рассматривать как проблему оптимизации на мета-уровне.

Нихил рассказал об эволюции подходов к NAS, описанных ниже:

  • На основе обучения с подкреплением (RL): использование подходов RL для поиска оптимальной архитектуры NN, таких как Zoph and Le (2017), Baker et al. (2017)
  • На основе нейроэволюции: использование эволюционных алгоритмов для создания нейронных сетей, таких как Real et al. (2017)

Оба этих подхода очень затратны с точки зрения вычислений (100 часов работы графического процессора), что затрудняет их масштабирование и перенос. Такие подходы, как NASNet (2018) и BlockQNN (2018), решают эти проблемы, используя более ограниченные пространства поиска.

Более поздние градиентные / дифференцируемые подходы, такие как DARTS (Liu et al., 2019) и SNAS (Xie et al., 2019), улучшают масштабируемость предыдущих методов за счет использования непрерывного ослабления представления архитектуры, что позволяет эффективный поиск архитектуры с использованием градиентный спуск.

И последнее, но не менее важное: он сравнил NAS со случайным поиском и выяснил, что это не намного лучше. Результаты взяты из Xie et. al (2019) .

Дальнейшее чтение:

Обсуждение: байесовская оптимизация и метаобучение (Фрэнк Хаттер)

Я пропустил этот доклад, но слайды доступны здесь. Это также относится к этой книге по AutoML.

Я думаю, что метаобучение - это увлекательная область, и я оставил список для чтения, который займет у меня какое-то время. :)