[Принято к NeurIPS 2021- Бумага, Кодекс]

За последние несколько лет стратегии активного обучения (AL) доказали свою эффективность в снижении затрат на маркировку. Однако современные методы плохо работают, когда речь идет о реальных наборах данных, которые имеют несовершенства и ряд характеристик, затрудняющих обучение на их основе:

Во-первых, реальные наборы данных несбалансированы, а некоторые классы очень редки. Некоторые примеры такого дисбаланса относятся к области медицинской визуализации; например, изображения раковых клеток часто встречаются реже, чем их доброкачественные аналоги в наборах данных визуализации рака. Другой пример — в области автономных транспортных средств, где мы хотим точно обнаруживать все объекты. Однако, поскольку некоторые объекты в определенных ситуациях являются редкими, например, пешеходы в темноте, часто случается так, что эти модели не могут обнаружить и классифицировать редкие классы.

Во-вторых, в реальных данных много избыточности. Эта избыточность более заметна в наборах данных, созданных путем выборки кадров из видео (например, кадры из автомобиля, едущего по автостраде, или кадры с камеры наблюдения).

В-третьих, обычно имеются данные вне распределения (OOD), когда некоторая часть немаркированных данных не имеет отношения к выполняемой задаче. Например, в области медицинской визуализации некоторые рентгеновские изображения в наборе данных могут быть получены неправильно, что сделает их недоступными для распространения.

В своей работе мы решаем следующий вопрос:

Можно ли обучить модель машинного обучения с помощью единой унифицированной среды активного обучения, которая работает для широкого спектра реалистичных сценариев?

Структура SIMILAR
Мы предлагаем SIMILAR, единую структуру активного обучения, которая действует как универсальное решение для многих реалистичных сценарии, рассмотренные выше. Основная идея нашей структуры заключается в том, чтобы использовать взаимосвязь между субмодульными информационными показателями (SIM) путем соответствующего выбора набора запросов Q и частного набора P. Унификация обусловлена ​​богатыми возможностями моделирования субмодульной условной взаимной информации (SCMI). Мы получаем формулировки субмодульной взаимной информации (SMI) и субмодульного условного усиления (SCG) от SCMI и применяем их к различным реалистичным сценариям.

Мы используем градиенты последнего линейного слоя, используя гипотетические метки для представления каждой точки данных. Гипотетическая метка для каждой точки данных назначается как класс с максимальной вероятностью. Чтобы создать экземпляр функций на основе SIM, мы вычисляем ядро ​​​​сходства, используя градиенты модели, полученные в текущем активном раунде обучения. Наконец, мы оптимизируем субмодулярную функцию, используя жадную стратегию, чтобы получить подмножество немеченого набора для маркировки человеком. После пометки мы добавляем его в помеченный набор обучающих данных и переходим к следующей итерации.

В приведенном выше примере для реальных сценариев набора данных для классификации цифр мы можем применить структуру SIMILAR следующим образом.

Результаты
Опытным путем мы показываем, что SIMILARзначительно превосходит существующие алгоритмы активного обучения на целых ≈ 5–18 % в случае редких классов и ≈ 5 % − 10% в случае нераспределенных данных по нескольким задачам классификации изображений, таким как CIFAR-10, MNIST и ImageNet.

SIMILAR доступен как часть набора инструментов DISTIL: https://github.com/decile-team/distil

Чтобы упростить использование SIMILAR, мы предоставляем учебные блокноты для каждого из описанных выше реалистичных сценариев:

  1. Руководство по редким классам на CIFAR-10
  2. Руководство по редким классам медицинских данных
  3. Учебник по резервированию
  4. Учебное пособие по внераспределенным данным

Мысли о будущем
Мы считаем, что SIMILAR — это многообещающий шаг в направлении активного обучения реалистичным сценариям. Основным ограничением нашей работы является зависимость от хороших представлений для вычисления подобия. В будущем мы также рассчитываем на подходы, которые можно будет использовать в случаях, когда характеристики набора данных совершенно неизвестны.

Автор
Сурадж Котаваде