Zero-Shot Learning - один из методов распознавания образов в искусственном интеллекте. В основном он используется для распознавания категории данных, которую он никогда раньше не видел. Прелесть такой модели в том, что обученная модель не может долго отличать существующие группы данных от обучающих данных, но также может различать данные, которые она никогда раньше не видела. Это очень полезная функция, поскольку она дает компьютеру возможность передавать знания.

В традиционных задачах распознавания образов категории данных между обучающим набором и тестовым набором примерно одинаковы. Проблема этого подхода заключается в том, что каждый раз, когда необходимо идентифицировать новые выборки категорий, их нужно добавлять как в обучающий, так и в тестовый наборы. На практике сбор таких образцов обходится очень дорого. Даже если у нас достаточно обучающей выборки, нам все равно придется заново обучать всю модель. Zero-Short Learning - отличное решение этой проблемы.

Как работает Zero-Shot Learning?

Zero-Short Learning выполняется в два этапа:

  1. Обучение: где фиксируются знания об атрибутах.
  2. Вывод: полученные знания затем используются для классификации экземпляров среди нового набора классов.

Есть два общих подхода, используемых для решения проблем распознавания нулевого кадра.

  1. Подход, основанный на встраивании

Основная цель этого подхода - сопоставить функции изображения и семантические атрибуты в общем пространстве встраивания с помощью функции проекции, которая изучается с помощью глубоких сетей.

Во время обучения цель состоит в том, чтобы найти функцию проецирования из визуального пространства в семантическое пространство (то есть словарные векторы или семантическое встраивание) с использованием информации из наблюдаемых категорий. Поскольку нейронные сети используются в качестве приближенных функций, функция проекции изучается как глубокая нейронная сеть.

На этапе тестирования данные ненаблюдаемой характеристики изображения категории помещаются в качестве входных данных в обученную модель, и в результате мы получаем относительное семантическое встраивание. После чего, чтобы провести классификацию, мы пытаемся с помощью поиска ближайшего соседа в пространстве семантических атрибутов найти результат, наиболее близкий к выходу сети. Наконец, категория, соответствующая ближайшему семантическому внедрению, прогнозируется как последняя категория функции входного изображения.

2. Подход на основе генеративной модели

Главный недостаток методов, основанных на внедрении, заключается в том, что они страдают от смещения и сдвига домена. Чтобы иметь возможность преодолеть этот недостаток, важно, чтобы наша модель классификации с нулевым выстрелом обучалась как видимым, так и ненаблюдаемым изображениям категорий во время поезда. Именно здесь используется метод, основанный на моделях.

Целью генеративного метода является создание характеристик изображения для ненаблюдаемых категорий с использованием семантических атрибутов. Как правило, это делается с использованием условной порождающей состязательной сети, которая генерирует характеристики изображения, обусловленные семантическим атрибутом данной категории.

Метрика оценки методов обучения с нулевым выстрелом

Как правило, модели распознавания изображений / классификации изображений используют точность Top-1 в качестве метрики оценки. Но метрика оценки, используемая для моделей распознавания с нулевым выстрелом, отличается от метрики, используемой для моделей классификации обычных изображений.

Мы используем среднее значение точности Top-1 по категории для оценки результатов распознавания с нулевым выстрелом.

Математически для набора классов Y с N классами средняя точность на один высший класс определяется выражением

Затем мы рассчитываем точность для каждого класса отдельно, а затем усредняем ее по всем остальным категориям. Это способствует высокой производительности как в малонаселенных, так и в густонаселенных классах. В методе обобщенной настройки нулевого выстрела наша цель - обеспечить высокую точность как для наблюдаемых классов, так и для набора ненаблюдаемых категорий . Таким образом, показатель эффективности определяется как среднее гармоническое значение эффективности по наблюдаемым классам и ненаблюдаемым категориям.

Обучение с использованием нескольких импульсов похоже на обучение с нулевым выстрелом, которое содержит только очень небольшое количество образцов. В этой статье я постараюсь собрать воедино несколько последних классических статей, а также несколько других ресурсов для предварительного обучения.

Оптимизация модели

• Неконтролируемое метаобучение для классификации изображений и видео по нескольким кадрам [Khodadadeh et al. 2018]

• Простой нейронный внимательный метаобучающийся [Mishra et al. 2018]

• Поиск с помощью нейронного оптимизатора с обучением с подкреплением [Bello, 2017]

• Оптимизация как модель для быстрого обучения [Рави, Ларошель, 2017]

• Мета-обучение, не зависящее от модели, для быстрой адаптации глубоких сетей [Finn et al. 2017]

Метрики оценки

• TADAM: адаптивная метрика, зависящая от задачи, для улучшенного обучения за несколько шагов [Орешкин и др. 2019]

• Учиться сравнивать: сеть взаимоотношений для кратковременного обучения [Sung et al. 2018]

• Мета-обучение для полу-контролируемой классификации по нескольким выстрелам [Triantafillou et al. 2018]

• Прототипные сети для быстрого обучения [Snell et al. 2017]

• Соответствующие сети для обучения одним выстрелом [Vinyals et al. 2017]

• Переход от изучения многообразия представлений к восприятию подобия новых объектов [Lin et al. 2017]

• Генеративные состязательные остаточные парные сети для однократного обучения [Mehrota & Dukkipatti 2017]

• Сиамские нейронные сети для однократного распознавания изображений [Koch et al. 2015]

Спасибо за прочтение!

Если вам понравилось, подпишитесь на меня на Medium, чтобы узнать больше. Это отличное кардио для 👏 И поможет другим людям увидеть историю.

использованная литература