1. Телеоперация с визуальным возвратом: протокол сбора данных для автономного обучения с подкреплением на основе изображений (arXiv)

Автор: Дэвид Брандфонбренер, Стивен Ту, Ави Сингх, Стефан Велкер, Чад Буду, Николай Матни, Джейк Варли.

Аннотация: мы рассматриваем, как наиболее эффективно использовать время телеоператора для сбора данных для изучения надежных функций и политик ценности на основе изображений для роботизированных задач с разреженным вознаграждением. Для достижения этой цели мы модифицируем процесс сбора данных, чтобы он включал больше, чем просто успешные демонстрации желаемой задачи. Вместо этого мы разрабатываем новый протокол, который мы называем телеоперацией с визуальным возвратом (VBT), который намеренно собирает набор данных визуально похожих неудач, восстановлений и успехов. Сбор данных VBT особенно полезен для эффективного изучения точных функций значений из небольших наборов данных наблюдений на основе изображений. Мы демонстрируем VBT на реальном роботе, чтобы выполнять непрерывный контроль на основе наблюдений за изображением для задачи деформируемой манипуляции по захвату футболки. Мы обнаружили, что, корректируя процесс сбора данных, мы улучшаем качество как функций извлеченной ценности, так и политик по сравнению с различными базовыми методами сбора данных. В частности, мы обнаружили, что автономное обучение с подкреплением на данных VBT превосходит стандартное клонирование поведения на успешных демонстрационных данных на 13%, когда оба метода получают наборы данных одинакового размера из 60 минут данных от реального робота.

2. Дополнительное обучение в реальном времени для робототехники на основе зрения с использованием локальных и удаленных компьютеров (arXiv)

Автор: Ян Ван, Гаутам Васан, А. Рупам Махмуд

Вывод . Обучение в реальном времени имеет решающее значение для адаптации роботов-агентов к постоянно меняющимся, нестационарным условиям. Обычная настройка для робота-агента состоит в том, чтобы одновременно иметь два разных компьютера: локальный компьютер с ограниченными ресурсами, привязанный к роботу, и мощный удаленный компьютер, подключенный по беспроводной сети. При такой настройке неясно, в какой степени на производительность обучающей системы могут повлиять ограничения ресурсов и как эффективно использовать мощный компьютер с беспроводным подключением, чтобы компенсировать любую потерю производительности. В этой статье мы реализуем систему обучения в реальном времени, называемую удаленно-локальной распределенной системой (ReLoD), для распределения вычислений двух алгоритмов глубокого обучения с подкреплением (RL): Soft Actor-Critic (SAC) и Proximal Policy Optimization (PPO). между локальным и удаленным компьютером. Производительность системы оценивается по двум задачам управления на основе зрения, разработанным с использованием манипулятора и мобильного робота. Наши результаты показывают, что производительность SAC сильно снижается на локальном компьютере с ограниченными ресурсами. Поразительно, когда все вычисления обучающей системы развернуты на удаленной рабочей станции, SAC не может компенсировать потерю производительности, указывая на то, что без тщательного рассмотрения использование мощного удаленного компьютера может не привести к повышению производительности. Однако тщательно подобранное распределение вычислений SAC последовательно и существенно повышает его производительность на обеих задачах. С другой стороны, производительность PPO практически не зависит от распределения вычислений. Кроме того, когда все вычисления происходят исключительно на мощном подключенном компьютере, производительность нашей системы остается на уровне существующей системы, хорошо настроенной для использования одной машины. ReLoD — единственная общедоступная система для RL в реальном времени, которая применяется к нескольким роботам для задач, основанных на зрении.

3. Neuro-Planner: метод трехмерной визуальной навигации для MAV с камерой глубины на основе нейроморфного обучения с подкреплением (arXiv)

Автор:Цзюньцзе Цзян, Дэлэй Конг, Куаньсю Хоу, Синьцзе Хуан, Хао Чжуан, Фан Чжэн

Аннотация:Традиционные методы визуальной навигации микролетательных аппаратов (MAV) обычно рассчитывают проходимый путь, который удовлетворяет ограничениям, зависящим от предыдущей карты. Однако у этих методов есть проблемы, такие как высокая потребность в вычислительных ресурсах и низкая надежность перед лицом незнакомых сред. Стремясь решить вышеуказанные проблемы, мы предлагаем нейроморфный метод обучения с подкреплением (Neuro-Planner), который сочетает в себе импульсную нейронную сеть (SNN) и глубокое обучение с подкреплением (DRL) для реализации трехмерной визуальной навигации MAV с помощью камеры глубины. В частности, мы разрабатываем сеть акторов с пиками на основе нейронов LIF с двумя состояниями (TS-LIF) и их схем кодирования-декодирования для эффективного вывода. Затем наши улучшенные алгоритмы градиента гибридной глубокой детерминированной политики (HDDPG) и пространственно-временного обратного распространения (STBP) на основе TS-LIF используются в качестве основы для обучения сетевой архитектуре актер-критик. Чтобы проверить эффективность предлагаемого Neuro-Planner, мы проводим подробные сравнительные эксперименты с различными алгоритмами обучения SNN (STBP, BPTT и SLAYER) в рамках моделирования программного обеспечения в цикле (SITL). Показатель успешной навигации нашего HDDPG-STBP на 4,3% и 5,3% выше, чем у исходного DDPG в двух тестовых средах. Насколько нам известно, это первая работа, сочетающая нейроморфные вычисления и глубокое обучение с подкреплением для задачи визуальной навигации MAV 3D. △