Неконтролируемая адаптация домена с помощью обратного распространения

Ярослав Ганин, Виктор Лемпицкий (ICML 2015)

Изучение дискриминатора или некоторого типа предиктора при наличии сдвига в распределениях исходного и целевого распределений известно как адаптация предметной области.

Как видно из изображения выше, классификатор, изученный в исходном распределении (синий), не будет хорошо работать с классификатором, изученным в целевом распределении (красный). Поэтому нам нужно сделать оба этих дистрибутива неразличимыми.

Ниже приведены некоторые типы примеров исходного и целевого доменов.

Заявление о проблеме

Для помеченного исходного домена и немаркированного целевого домена. Мы хотели бы обучить классификатор или предсказатель, который давал бы точные прогнозы в целевом домене.

Предположения

Распределение вероятностей исходного домена не равно распределению вероятностей целевого домена. Условное распределение вероятностей меток, заданных экземпляру из исходного домена, равно условному распределению вероятностей меток, заданных экземпляру из целевого домена. Отмечен исходный набор данных. Целевой набор данных не помечен

Цель

Выполните некоторые преобразования в исходном и целевом доменах и приблизьте преобразованные распределения. Затем обучите классификатор преобразованному исходному распределению, и, поскольку оба преобразованных распределения теперь похожи, модель достигнет большей точности в целевом домене во время тестирования.

Для выполнения преобразования используется нейронная сеть. Пусть сеть, используемая для выполнения преобразования, обозначена как «F» с параметрами нейронной сети «W». Пусть экземпляры из исходного и целевого домена будут обозначены как «s» и «t». Преобразованный вектор после выполнения преобразования F с весами W на исходном и целевом экземплярах будет обозначен как V s и V t.

F (s, W) = V s и F (t, W) = V t.

Цель состоит в том, чтобы приблизить распределения вероятностей V s и V t или сделать их похожими друг на друга. P (V s) = P (V t).

Подход

Вышеуказанная цель может быть достигнута с помощью следующих компонентов.

Feature Extractor: это нейронная сеть, которая научится выполнять преобразование исходного и целевого распределения.
Классификатор ярлыков. Это нейронная сеть, которая научится выполнять классификацию преобразованного исходного распределения. Поскольку исходный домен помечен
Классификатор домена. Это нейронная сеть, которая будет прогнозировать, является ли вывод Feature Extractor исходным или целевым.

Базовая интуиция. По сути, экстрактор признаков будет пытаться выполнить некоторое преобразование в исходном и целевом экземплярах, чтобы преобразованные экземпляры выглядели так, как будто они происходят из одного и того же дистрибутива, и классификатор домена не сможет классифицируйте область преобразованных экземпляров. Это достигается за счет обучения как экстрактора признаков, так и классификатора домена таким образом, чтобы экстрактор признаков был обучен максимизировать потерю классификации домена, в то время как классификатор домена будет пытаться минимизировать потерю классификации домена. Таким образом, это похоже на состязательное обучение, при котором средство извлечения признаков пытается сбить с толку классификатор предметной области, сближая два распределения. Для преобразованных исходных экземпляров предсказатель меток будет обучен предсказанию меток исходных экземпляров. Таким образом, экстрактор признаков будет обучен минимизировать потерю классификации предиктора метки и максимизировать потерю классификации предиктора домена. предсказатель метки и предсказатель домена будут обучены, чтобы минимизировать соответствующие потери классификации.

Таким образом, используя три вышеупомянутых компонента, средство извлечения признаков научится создавать отличительные и зависящие от предметной области признаки.

Слой с обращением градиента

Для обучения экстрактора признаков, чтобы максимизировать потерю классификации предиктора предметной области, между экстрактором признаков и классификатором предметной области был помещен слой обращения градиента. Слой обращения градиента в основном действует как функция идентичности (выходы такие же, как входные) во время прямого распространения, но во время обратного распространения он умножает свой вход на -1. Интуитивно понятно, что во время обратного распространения выходные данные GRL в основном приводят к противоположному градиентному спуску, который выполняет градиентный подъем на экстракторе признаков в отношении потери классификации предиктора домена.

Результаты

Плюсы

Приближает оба домена после выполнения некоторого преобразования
Изучает отличительные и инвариантные особенности предметной области

Минусы

Слои с обращением градиента приводят к исчезновению проблемы градиента, как только предсказатель домена достигает хорошей точности
Одинаковые веса используются для выполнения преобразования в исходном домене и целевом домене. Поскольку и исходный, и целевой домен могут иметь разные функции, поэтому общие веса могут привести к меньшему количеству параметров для изучения независимых функций и преобразования обоих распределений.