Текущее глубокое обучение для зрения, звука и т. Д. Требует огромных объемов данных, помеченных людьми, с множеством примеров каждой категории, чтобы правильно обучить классификатор с приемлемой точностью.

Напротив, людям нужно увидеть лишь несколько примеров класса, чтобы начать правильно и точно распознавать и классифицировать будущие примеры этого класса.

Разница в том, что люди способны быстро создавать точные мысленные «представления» о вещах, а затем использовать эти представления для гибкого учета будущих изменений. Посмотрев, например, несколько изображений сойки, мы можем создать в уме модель или представление сойки, а затем определить и точно определить сойку на новых изображениях, даже когда птицы смотрят под разными углами, с разных точек зрения и т. Д. создавать представления таким же образом, и, следовательно, необходимо обучаться на множестве, множестве и множестве помеченных экземпляров (с изображениями, «расширенными», чтобы показывать разные углы, перспективы), чтобы надежно обрабатывать будущие данные и успешно обобщать.

Однако этот пробел в способности к представлению, который вызывает потребность в больших объемах помеченных данных, теперь может быстро сокращаться благодаря новым улучшениям, разработанным Deep Mind после более раннего прорыва Deep Mind «CPC» или C навязчивый P навязчивый адрес.

Их работа, CPC 2.0, представлена ​​в новом документе под названием Эффективное распознавание изображений с помощью контрастного предиктивного кодирования.

Используя CPC 2.0, классификацию и распознавание изображений, сетевые сети могут лучше создавать представления, которые позволяют сильное обобщение после обучения только на небольших объемах данных… приближаясь к тому, как люди могут работать.

Результаты производительности: некоторые сравнения подчеркивают значимость - классификаторы изображений, обученные с помощью CPC 2, и только 1% данных ImageNet достигли 78% точности в первой пятерке, что превосходит контролируемое (обычное обучение с метками), обученное на 5-кратном большем количестве данных. .

Продолжая обучение на всех доступных изображениях (100%), CPC2 ResNet превзошел полностью контролируемые системы, также обученные на полном наборе данных, на 3,2% (точность Top-1). Обратите внимание, что только с половиной набора данных (50%) CPC ResNet соответствует точности полностью контролируемых NN, обученных на 100% данных.

Наконец, чтобы показать универсальность представлений CPC - взяв CPC2 ResNet и используя трансферное обучение для обнаружения объектов (набор данных PASCAL-VOC 2007), он достигает новейшей производительности с показателем MAP 76,6%, что превышает предыдущий рекорд на 2%. .

Почему работает CPC? Основная идея здесь, согласно гипотезе автора, заключается в том, что CPC может обеспечить более качественные пространственные представления, тем самым приближая искусственные системы к биологическим представлениям и помогая сократить разрыв между ними.

Это связано с общим принципом, который они отмечают ниже:

Новый принцип глубокого обучения - «хорошее представление
должно делать пространственно-временную изменчивость естественных сигналов более предсказуемой». (цитата из статьи)

Как работает цена за клик?

В упрощенном виде CPC2 работает следующим образом:

1- Разделите изображение на перекрывающиеся квадраты или «участки».

2 - Пропустите каждый патч через средство извлечения признаков (синий стек на изображении выше), достигнув кульминации в среднем слое объединения и, таким образом, окончательном векторе представления (тонкие шипы выше).

3 - Объедините локальные векторы признаков в группы и создайте замаскированные ConvNets на основе местоположения (красные блоки на изображении выше) и порога разделения (то есть сверху и снизу). В этом примере выше создаются контекстные сети над центром.

4 - Используйте контекстные сети (замаскированные ConvNet) для прогнозирования / распознавания векторов признаков напротив разделительной линии векторов признаков. В этом случае прогнозирование того, какие векторы признаков находятся ниже центра (см. Стрелки, указывающие вниз от красных блоков) среди отрицательных выборок векторов признаков из других изображений.

Качество предсказаний вектора признаков измеряется с использованием контрастных потерь, отсюда и название - Contrastive Predictive Coding.

Функция полных потерь называется InfoNCE, на основе метода контрастной оценки шума. Было показано, что NCE максимизирует объем взаимной информации между заданным вектором контекста и целевым вектором признаков.

5 - Откажитесь от замаскированной ConvNet и замените ее стандартным линейным классификатором и начните обучение / оценку с помеченными данными.

Выполняя вышеизложенное, NN вынуждена создавать более качественные представления и, таким образом, уменьшать потребность в более размеченных данных и иметь возможность лучше обобщать.

С цены за клик на цену за клик 2.0:

CPC v1 родился с оригинальной статьей Deep Mind: Репрезентативное обучение с контрастным прогнозирующим кодированием

На основе этого авторы создали CPC v2, объединив целую серию улучшений, что привело к значительному скачку конечной точности, как показано выше. Подробности описаны в статье, но я выделю два самых больших скачка выше.

Увеличение данных (PA выше) - авторы обнаружили, что удаление 2 из 3 цветовых каналов на изображениях служило отличным увеличением (+ 3%). Затем они улучшили это, добавив больше дополнений, таких как сдвиг, вращение, преобразование цвета для еще 4,5% прироста.

Более крупная модель (MC выше) - при переходе от ResNet-101 к ResNet-161 (индивидуально) добавлен скачок на 5%. Кроме того, за счет интеграции более крупных патчей они смогли улучшить результаты еще на 2%.

Другие изменения заключались в том, что прогнозы выполнялись во всех направлениях и только сверху против низа. то есть слева и справа, снизу и сверху. В сумме это прибавило еще + 4,5% (см. Диаграмму выше).

Заключение: CPC 2.0 устанавливает новый стандарт для «обучения без учителя» и показывает новый способ помочь NN построить более качественные представления и, таким образом, обучаться в манере, приближенной к человеческим / биологическим методам. Показанная ключевая концепция заключается в том, что представления, уменьшающие пространственно-временную изменчивость, являются будущим путем для ИИ в целом, поскольку это снизит требования к данным для обучения.

Авторы отмечают, что CPC не зависит от задачи - в то время как в документе основное внимание уделяется зрению, языку, звуку и т. Д., Все они являются кандидатами на обучение в стиле CPC и могут быть особенно полезны для робототехники, где используются мультимодальные входы, но данных мало.

Скоро вы сможете использовать CPC 2.0 в своих проектах… b / c:

Скоро появится открытый исходный код! Процитируем авторов: «Мы будем открывать исходный код нашей реализации и предварительно обученных моделей, чтобы сделать эти методы широко доступными».