По мере того как роботы захватывают промышленное производство, конкретное и точное управление роботами становится все более важным. Обычные методы управления с обратной связью могут эффективно решать различные типы задач управления роботами путем захвата структур с помощью явных моделей, таких как уравнения движения. Однако трудно достичь достаточной точности и устойчивости для проблем современного промышленного производства, которые связаны с контактом между роботом и окружающей его средой и трением, когда контроллеры должны регулироваться вручную.

В статье Остаточное обучение с подкреплением для управления роботами исследователи из корпорации Siemens, Калифорнийского университета в Беркли и Гамбургского технологического университета предлагают новый подход к остаточному обучению с подкреплением для решения реальные проблемы управления роботом, такие как трение и контакт.

«Было продемонстрировано, что методы обучения с подкреплением (RL) способны обучать непрерывные контроллеры роботов на основе взаимодействия с окружающей средой, даже для проблем, включающих трение и контакты. В этой статье мы изучаем, как мы можем решить сложные проблемы управления в реальном мире, разложив их на часть, которая эффективно решается с помощью обычных методов управления с обратной связью, и остаток, который решается с помощью RL. Окончательная политика управления - это суперпозиция обоих сигналов управления. Мы демонстрируем наш подход, обучая агента успешно выполнять реальную задачу сборки блоков, включающую контакты и нестабильные объекты ». (arXiv).

Synced пригласил доцента и директора Лаборатории интеллектуального движения Университета Дьюка Крис Хаузер, чья работа сосредоточена на планировании движений роботов и управлении ими, поделиться своими мыслями об остаточном обучении с подкреплением для управления роботами.

Как бы вы описали остаточное обучение с подкреплением?

Обучение с остаточным подкреплением - это подход, в котором контроллер, созданный вручную, используется в качестве действия по умолчанию в обучении с подкреплением (RL). Это перекладывает бремя системы RL на изучение разницы (невязки) между оптимальным управляющим действием и действием контроллера.

Почему это исследование важно?

В робототехнике может быть сложно разработать контроллеры, способные учитывать изменения лабораторных условий в реальном мире. В то же время было показано, что обучение с подкреплением требует значительного количества данных, прежде чем оно станет адекватным. Остаточное обучение с подкреплением предлагает объединить сильные стороны обоих подходов, полагаясь на спроектированный контроллер в качестве отправной точки и используя RL для исправления ошибок контроллера.

Какое влияние это исследование может оказать на научное сообщество?

Традиционные подходы к управлению, такие как ПИД-регулирование, LQR, оптимизация траектории или планирование пути, отлично подходят для создания высокоточных движений робота, но во время взаимодействия с внешним миром эти подходы могут быть хрупкими, поскольку для стратегий манипуляции, разработанных вручную, требуются точные модели трения и контакта. которые трудно получить. Роботы должны быть гораздо более адаптивными, чтобы сократить разрыв между лабораторией и реальным миром, и остаточное обучение с подкреплением - один из механизмов, который может помочь преодолеть этот разрыв.

В то же время для выполнения методов RL может потребоваться огромное количество данных, а также традиционных подходов к управлению роботами, и, используя контроллер в качестве отправной точки, остаточное обучение с подкреплением может научиться выполнять задачу с меньшим объемом данных, чем RL. с нуля. Более того, для сложной оптимальной политики и хорошо спроектированного контроллера форма остаточной политики может быть более простой и более доступной для изучения в режиме небольшой выборки.

Можете ли вы определить узкие места в исследовании?

Основные узкие места для этого исследования заключаются в том, что неясно, какие проблемы больше всего выигрывают от предлагаемой техники, насколько хорошо должен работать ручной контроллер и какие аспекты проблемы лучше всего решать с помощью ручного контроллера, а не RL. Хотя предложенный метод кажется полезным приемом, который может иметь практическое значение, теоретические выводы этой работы не так хорошо развиты.

Более того, этот подход напоминает такие методы, как обучение с подкреплением на основе моделей и адаптивное управление, которые используют онлайн-обучение для улучшения модели динамики сверх первоначального предположения. Вероятно подозревать, что изучение модели может делать обобщения быстрее, чем изучение остатка, и поэтому потребуется дополнительный анализ для обоснования предлагаемого подхода.

Наконец, хотя авторы постарались оценить свой метод с различными начальными условиями, следует отметить, что оцениваемая задача - вставка блока пенопласта между двумя другими блоками - довольно проста. Еще неизвестно, может ли этот подход работать с более сложной реальной задачей.

Можете ли вы предсказать возможные будущие события, связанные с этим исследованием?

Текущая тенденция в обучении с подкреплением - это растущее понимание проблем применения RL к задачам робототехники, и одно направление исследований решает эти проблемы путем «облегчения» проблемы обучения, то есть упрощения алгоритму обучения поиск полезных шаблонов в данные. Остаточное обучение с подкреплением - хороший пример этой философии.

Другое возможное направление исследований - понять, почему некоторые проблемы робототехники, как правило, сложнее изучать по сравнению, например, с проблемами зрения. Вооружившись более глубоким пониманием, можно будет разработать структуры моделей, специально адаптированные для преодоления проблем гибридной динамики контакта, разрывов в политике, присущих нелинейному оптимальному управлению, мультимодальной неопределенности и трехмерной объемной геометрии, среди прочего.

Статья Обучение остаточному подкреплению для управления роботами находится на arXiv.

О профессоре Кристоффере Хаузере

Крис Хаузер - адъюнкт-профессор инженерной школы Пратта при Университете Дьюка с совместным назначением на факультете электротехники и вычислительной техники, а также на факультете машиностроения и материаловедения. Он получил докторскую степень в области компьютерных наук в Стэнфордском университете в 2008 году, степень бакалавра компьютерных наук и математики в Калифорнийском университете в Беркли в 2003 году и работал постдокторантом в Калифорнийском университете в Беркли. С 2009 по 2014 год он работал на факультете Университета Индианы, где основал Intelligent Motion Lab. Он получил стипендию Стэнфордского университета, стипендию ученого Зибеля и награду NSF CAREER. В 2019 году он перейдет на факультет компьютерных наук Иллинойского университета в Урбана-Шампейн.

Партнерская программа Synced Insight

Партнерская программа Synced Insight - это программа, доступная только по приглашениям, которая объединяет влиятельные организации, компании, академических экспертов и лидеров отрасли для обмена профессиональным опытом и идеями посредством интервью, публичных выступлений и т. Д. Synced приглашает представителей отрасли к участию приглашаются эксперты, профессионалы, аналитики и другие лица, работающие в области технологий искусственного интеллекта и машинного обучения.

Просто Подайте заявку на участие в партнерской программе Synced Insight и расскажите нам о себе и о своем внимании к искусственному интеллекту. Мы ответим вам, как только ваша заявка будет одобрена.

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

Подпишитесь на нас в Twitter @Synced_Global, чтобы получать ежедневные новости об ИИ!

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.