Текущее глубокое обучение для зрения, звука и т. Д. Требует огромных объемов данных, помеченных людьми, с множеством примеров каждой категории, чтобы правильно обучить классификатор с приемлемой точностью.
Напротив, людям нужно увидеть лишь несколько примеров класса, чтобы начать правильно и точно распознавать и классифицировать будущие примеры этого класса.
Разница в том, что люди способны быстро создавать точные мысленные «представления» о вещах, а затем использовать эти представления для гибкого учета будущих изменений. Посмотрев, например, несколько изображений сойки, мы можем создать в уме модель или представление сойки, а затем определить и точно определить сойку на новых изображениях, даже когда птицы смотрят под разными углами, с разных точек зрения и т. Д. создавать представления таким же образом, и, следовательно, необходимо обучаться на множестве, множестве и множестве помеченных экземпляров (с изображениями, «расширенными», чтобы показывать разные углы, перспективы), чтобы надежно обрабатывать будущие данные и успешно обобщать.
Однако этот пробел в способности к представлению, который вызывает потребность в больших объемах помеченных данных, теперь может быстро сокращаться благодаря новым улучшениям, разработанным Deep Mind после более раннего прорыва Deep Mind «CPC» или C навязчивый P навязчивый адрес.
Их работа, CPC 2.0, представлена в новом документе под названием Эффективное распознавание изображений с помощью контрастного предиктивного кодирования.
Используя CPC 2.0, классификацию и распознавание изображений, сетевые сети могут лучше создавать представления, которые позволяют сильное обобщение после обучения только на небольших объемах данных… приближаясь к тому, как люди могут работать.
Результаты производительности: некоторые сравнения подчеркивают значимость - классификаторы изображений, обученные с помощью CPC 2, и только 1% данных ImageNet достигли 78% точности в первой пятерке, что превосходит контролируемое (обычное обучение с метками), обученное на 5-кратном большем количестве данных. .
Продолжая обучение на всех доступных изображениях (100%), CPC2 ResNet превзошел полностью контролируемые системы, также обученные на полном наборе данных, на 3,2% (точность Top-1). Обратите внимание, что только с половиной набора данных (50%) CPC ResNet соответствует точности полностью контролируемых NN, обученных на 100% данных.
Наконец, чтобы показать универсальность представлений CPC - взяв CPC2 ResNet и используя трансферное обучение для обнаружения объектов (набор данных PASCAL-VOC 2007), он достигает новейшей производительности с показателем MAP 76,6%, что превышает предыдущий рекорд на 2%. .
Почему работает CPC? Основная идея здесь, согласно гипотезе автора, заключается в том, что CPC может обеспечить более качественные пространственные представления, тем самым приближая искусственные системы к биологическим представлениям и помогая сократить разрыв между ними.
Это связано с общим принципом, который они отмечают ниже:
Новый принцип глубокого обучения - «хорошее представление
должно делать пространственно-временную изменчивость естественных сигналов более предсказуемой». (цитата из статьи)
Как работает цена за клик?
В упрощенном виде CPC2 работает следующим образом:
1- Разделите изображение на перекрывающиеся квадраты или «участки».
2 - Пропустите каждый патч через средство извлечения признаков (синий стек на изображении выше), достигнув кульминации в среднем слое объединения и, таким образом, окончательном векторе представления (тонкие шипы выше).
3 - Объедините локальные векторы признаков в группы и создайте замаскированные ConvNets на основе местоположения (красные блоки на изображении выше) и порога разделения (то есть сверху и снизу). В этом примере выше создаются контекстные сети над центром.
4 - Используйте контекстные сети (замаскированные ConvNet) для прогнозирования / распознавания векторов признаков напротив разделительной линии векторов признаков. В этом случае прогнозирование того, какие векторы признаков находятся ниже центра (см. Стрелки, указывающие вниз от красных блоков) среди отрицательных выборок векторов признаков из других изображений.
Качество предсказаний вектора признаков измеряется с использованием контрастных потерь, отсюда и название - Contrastive Predictive Coding.
Функция полных потерь называется InfoNCE, на основе метода контрастной оценки шума. Было показано, что NCE максимизирует объем взаимной информации между заданным вектором контекста и целевым вектором признаков.
5 - Откажитесь от замаскированной ConvNet и замените ее стандартным линейным классификатором и начните обучение / оценку с помеченными данными.
Выполняя вышеизложенное, NN вынуждена создавать более качественные представления и, таким образом, уменьшать потребность в более размеченных данных и иметь возможность лучше обобщать.
С цены за клик на цену за клик 2.0:
CPC v1 родился с оригинальной статьей Deep Mind: Репрезентативное обучение с контрастным прогнозирующим кодированием
На основе этого авторы создали CPC v2, объединив целую серию улучшений, что привело к значительному скачку конечной точности, как показано выше. Подробности описаны в статье, но я выделю два самых больших скачка выше.
Увеличение данных (PA выше) - авторы обнаружили, что удаление 2 из 3 цветовых каналов на изображениях служило отличным увеличением (+ 3%). Затем они улучшили это, добавив больше дополнений, таких как сдвиг, вращение, преобразование цвета для еще 4,5% прироста.
Более крупная модель (MC выше) - при переходе от ResNet-101 к ResNet-161 (индивидуально) добавлен скачок на 5%. Кроме того, за счет интеграции более крупных патчей они смогли улучшить результаты еще на 2%.
Другие изменения заключались в том, что прогнозы выполнялись во всех направлениях и только сверху против низа. то есть слева и справа, снизу и сверху. В сумме это прибавило еще + 4,5% (см. Диаграмму выше).
Заключение: CPC 2.0 устанавливает новый стандарт для «обучения без учителя» и показывает новый способ помочь NN построить более качественные представления и, таким образом, обучаться в манере, приближенной к человеческим / биологическим методам. Показанная ключевая концепция заключается в том, что представления, уменьшающие пространственно-временную изменчивость, являются будущим путем для ИИ в целом, поскольку это снизит требования к данным для обучения.
Авторы отмечают, что CPC не зависит от задачи - в то время как в документе основное внимание уделяется зрению, языку, звуку и т. Д., Все они являются кандидатами на обучение в стиле CPC и могут быть особенно полезны для робототехники, где используются мультимодальные входы, но данных мало.
Скоро вы сможете использовать CPC 2.0 в своих проектах… b / c:
Скоро появится открытый исходный код! Процитируем авторов: «Мы будем открывать исходный код нашей реализации и предварительно обученных моделей, чтобы сделать эти методы широко доступными».