Самоконтролируемое обучение визуальному представлению за последние годы достигло впечатляющих результатов. Поскольку этот подход работает с изображениями без меток, он может использовать триллионы изображений, доступных в Интернете и в наборах данных фотографий. Новое исследование, однако, утверждает, что формирование «по-настоящему умных» учеников требует выхода за рамки парадигмы тщательно отобранных данных в пользу подхода, основанного на более биологическом видении, при котором агенты также могут извлекать уроки из своего окружения. Примером могут служить младенцы, которые приобретают визуальный опыт посредством активных физических исследований и взаимодействий, таких как толкание, хватание, сосание и толкание.

Вопрос в том, как в интерактивной среде агент ИИ может изучить хорошие визуальные представления без каких-либо предварительных данных или определенных задач? Чтобы решить эту проблему, исследовательская группа из MIT и MIT-IBM Watson AI Lab предложила Curious Representation Learning (CRL), структуру, которая, учитывая самоконтролируемую методику обучения репрезентации, обучает агента обучения с подкреплением (RL) изучать исследование. политики, максимизируя вознаграждение, равное потере модели обучения репрезентации с самоконтролем.

Исследователи резюмируют свой вклад следующим образом:

  1. Представьте CRL как подход к изучению воплощенного представления, в котором модель обучения представлению играет в минимаксную игру с политикой исследования.
  2. Покажите, что изученные визуальные представления могут помочь в решении множества задач, в которых критически важно заморозить представления для обеспечения хорошей производительности.
  3. Покажите, что эти представления, полностью обученные моделированию, могут дать интерпретируемые результаты на реальных фотографиях.

Сначала исследователи изучают базовые знания о схемах обучения контрастивному представлению. Чтобы изучить представления, они используют подход контрастного обучения, включающий модель обучения представлений, проекционную головку двухслойного многослойного персептрона (MLP) и семейство дополнений данных. Они также используют политику RL, обученную для максимизации вознаграждения, стимулируя политику к поиску ранее невидимых изображений, на которых модель будет нести большие потери. Эта внутренняя мотивация и любопытство позволяют политикам автоматически получать полезные данные.

Исследователи провели обширные эксперименты, чтобы проверить полезность изученных представлений для последующих задач, таких как семантическая навигация, визуальная языковая навигация и понимание реальных изображений. Для представления моделей обучения они использовали кодировщик изображений ResNet50. Для предварительной подготовки представлений они обучили CRL на симуляторе Habitat с использованием набора данных Matterport3D и использовали набор данных Gibson для экспериментальной проверки.

Для семантической навигации команда оценивала успех задачи, успех, взвешенный по длине пути (SPL), мягкий SPL (успех, взвешенный по длине пути, но с более мягким критерием успеха) и расстояние до цели. Результаты показали, что CRL обеспечивает наилучшие результаты как для ImageNav, так и для ObjectNav.

Что касается визуальной языковой навигации, они исследовали, как можно использовать различные методы обучения репрезентации, чтобы облегчить визуальную языковую навигацию с помощью имитационного обучения. И в настройках поведенческого клонирования, и в настройках Dagger CRL превзошел методы, использующие случайные веса, веса RND или ATC, а также достиг производительности, сопоставимой с контролируемой моделью ImageNet.

CRL также показал лучшую производительность при понимании реального изображения, что указывает на то, что он изучает представления, которые лучше всего передаются в реальные изображения.

Результаты демонстрируют, что предлагаемая общая структура CRL может успешно изучать не зависящие от задачи визуальные представления в воплощенных средах и может эффективно переноситься на последующие задачи.

Статья Изучение любопытных представлений для воплощенного интеллекта находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.