Новое исследование показывает, как использовать модели энергии для создания наборов обучающих данных в большом масштабе.

Недавно я начал выпускать образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 80 000 человек. TheSequence - это информационный бюллетень, ориентированный на машинное обучение (то есть без рекламы, новостей и т. Д.), На чтение которого уходит 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Энергетические модели (EBM) - одна из самых многообещающих областей глубокого обучения, которая еще не получила широкого распространения. Концептуально EBM - это форма генеративного моделирования, которая изучает ключевые характеристики целевого набора данных и пытается создать аналогичные наборы данных. Хотя результаты EBM привлекательны из-за своей простоты, они столкнулись со многими проблемами при применении в реальных приложениях. Пару лет назад компания OpenAI, занимающаяся искусственным интеллектом, опубликовала новую исследовательскую статью, в которой исследуется новый метод создания модели EBM, которая может масштабироваться в сложных топологиях глубокого обучения.

EBM обычно используются в одной из самых сложных проблем реальных решений глубокого обучения: создании качественных наборов данных для обучения. Самые современные методы глубокого обучения основаны на больших объемах обучающих данных, которые нецелесообразно поддерживать в большом масштабе. EBM имеют возможность наблюдать за ключевыми математическими элементами обучающих наборов данных, а также генерировать новые наборы данных, которые следуют аналогичному распределению. EBM - не единственная дисциплина в этой области генеративного моделирования. Такие методы, как вариационные автоэнкодеры (VAE) или генеративные состязательные нейронные сети (GAN), также используются для решения проблемы генерации наборов данных, но, учитывая их простоту, EBM имеют ощутимые преимущества перед альтернативами. К сожалению, EBM было действительно сложно масштабировать на практике. Чтобы понять почему, мы, вероятно, можем начать с анализа некоторых ключевых характеристик EBM.

Понимание обучения, основанного на энергии

С некоторых точек зрения, одной из основных целей машинного обучения является определение зависимостей между переменными. Улавливая эти зависимости, модель может использоваться для ответа на вопросы о значениях неизвестных переменных с учетом значений известных переменных. EBM фиксируют зависимости, связывая скалярную энергию (меру совместимости) с каждой конфигурацией переменных. В этой схеме вывод состоит в установке значения наблюдаемых переменных и нахождении значений остальных переменных, которые минимизируют энергию. Точно так же обучение может быть достигнуто путем нахождения функции энергии, которая связывает низкие энергии с правильными значениями остальных переменных и более высокие энергии с неправильными значениями.

EBMs обеспечивает единую структуру для многих вероятностных и ненадежных подходов к обучению, особенно для не вероятностного обучения графических моделей и других структурированных моделей. Поскольку нет необходимости в надлежащей нормализации, подходы, основанные на энергии, позволяют избежать проблем, связанных с оценкой константы нормализации в вероятностных моделях. Кроме того, отсутствие условия нормализации обеспечивает большую гибкость при проектировании обучающих машин.

Возможности EBM делают его идеальным кандидатом для различных областей глубокого обучения, таких как обработка естественного языка, робототехника или компьютерное зрение. Однако одним из хорошо известных ограничений EBM является то, что они полагаются на методы оптимизации градиентного спуска, которые обычно трудно масштабировать в высокоразмерных наборах данных.

Масштабируемые модели на основе энергии

Чтобы смягчить ограничения традиционных EBM, связанные с зависимостью от методов градиентного спуска, OpenAI решил использовать технику, известную как Langevin Dynamics, в качестве основного метода оптимизации. Названный в честь французского физика Поля Ланжевена, этот метод оптимизации основан на моделях молекулярных систем. Как и стохастический градиентный спуск, Langevin Dynamics - это итерационный алгоритм оптимизации, который вносит дополнительный шум в стохастический оценщик градиента для оптимизации целевой функции. Основное преимущество, которое Langevin Dynamics предлагает по сравнению с традиционными методами оптимизации, заключается в том, что его можно использовать для сценариев байесовского обучения, поскольку этот метод производит выборки из апостериорного распределения параметров на основе доступных данных.

OpenAI использовал Langevin Dynamics для выполнения зашумленного градиентного спуска по энергетической функции, чтобы прийти к конфигурациям с низким энергопотреблением. В отличие от моделей GAN, VAE и Flow, этот подход не требует явной нейронной сети для генерации выборок - выборки генерируются неявно. OpenAI объединяет Langevin Dynamics с буфером воспроизведения прошлых изображений, которые используются для инициализации модуля оптимизации.

Идея объединения EBM и Langevin Dynamics эффективно вводит итеративное уточнение в EBM, что позволяет генерировать наборы данных более высокого качества. Этот подход дает некоторые очень ощутимые преимущества по сравнению с традиционными подходами EBM:

1) Простота и стабильность: EBM - единственный объект, который необходимо обучить и спроектировать в модели. В отличие от VAE или GAN, нет необходимости настраивать процессы обучения для отдельных сетей, чтобы убедиться, что они сбалансированы.

2) Время адаптивных вычислений: модель EBM позволяет выполнять последовательное уточнение в течение длительного периода времени для создания четких, разнообразных выборок или короткого промежутка времени для грубых и менее разнообразных выборок.

3) Гибкость генерации: как в модели VAE, так и в модели на основе потока, генератор должен изучить карту из непрерывного пространства в возможно отключенное пространство, содержащее различные режимы данных, что требует большой емкости и может быть невозможно. учить. В EBM, напротив, можно легко научиться назначать низкие энергии в непересекающихся областях.

4) Адаптивная генерация: Хотя конечная цель обучения EBM похожа на цель GAN, генератор неявно определяется распределением вероятностей и автоматически адаптируется по мере изменения распределения. В результате генератор не нужно обучать, что позволяет применять EBM в областях, где сложно обучить генератор GAN, а также улучшать коллапс режима.

5) Композиционность: поскольку каждая модель представляет ненормализованное распределение вероятностей, модели можно естественным образом комбинировать с помощью продуктов экспертов или других иерархических моделей.

OpenAI оценил свою архитектуру EBM с использованием хорошо известных наборов данных, таких как CIFAR-10 и ImageNet 32x32. Модель EBM смогла генерировать высококачественные изображения за относительно короткий период времени. Что еще более впечатляет, модель EBM демонстрирует способность комбинировать функции, извлеченные из одного типа изображения, в процессе создания других типов изображений. На следующем рисунке показано, как модель EBM может автоматически дополнять изображения и преобразовывать изображения из одного класса (например, грузовика) в другой (например, лягушка).

Одним из наиболее впечатляющих достижений моделей OpenAI EBM была способность делать обобщения при сравнении с наборами данных вне распределения. В начальных тестах метод EBM смог превзойти другие модели правдоподобия, такие как модели на основе потока и авторегрессионные модели. OpenAI также проверил классификацию с использованием условных моделей, основанных на энергии, и обнаружил, что полученная классификация демонстрирует хорошее обобщение для состязательных возмущений. Наша модель - несмотря на то, что ее никогда не обучали классификациям - выполняла классификацию лучше, чем модели, специально обученные противодействию враждебным возмущениям. На следующем рисунке показаны результаты экспериментов по обобщению.

EBM по-прежнему считаются зарождающейся областью в экосистеме глубокого обучения. Оптимизация OpenAI показала, что EBM прекрасно масштабируются для многомерных наборов данных. Работа также продемонстрировала, что процедуры неявной генерации в сочетании с моделями, основанными на энергии, допускают композиционность и гибкость шумоподавления и рисования. Вместе с исследовательской работой OpenAI открыла исходный код для первоначальной реализации своей модели EBM, а также соответствующих наборов данных. Этот тип работы, вероятно, вдохновит других исследователей рассматривать методы EBM как важный метод для создания эффективных наборов обучающих данных за небольшую часть текущих затрат.