Публикации по теме imitation-learning

Публикации по теме 'imitation-learning'

Что важно в состязательном имитационном обучении? Исследование мозга Google дает ценные сведения

Мастерство ИИ в сложных играх, таких как Go и StarCraft, повысило интерес исследователей к обучению с подкреплением (RL), когда агенты, которым предоставлены только правила игры, участвуют в самостоятельной игре, чтобы поднять свою производительность до человеческого уровня и выше. Но как создать функции вознаграждения для реальных задач, в которых отсутствует четко определенное условие выигрыша? Войдите в Adversarial Imitation Learning (AIL), структуру для непрерывного контроля,..

Метод объектно-ориентированного имитации обучения VIOLA от UT Austin и Sony AI для манипулирования роботами…

Манипулирование на основе зрения — это ключевой навык, который позволяет автономным роботам понимать окружающую среду и учиться в ней разумному поведению. Глубокое имитационное обучение недавно стало перспективным методом обучения манипулированию зрением, и хотя полученные модели…

Полное бета-тестирование Tesla для самостоятельного вождения — «Имитационное обучение»

Какая технология и алгоритм лежат в основе выпуска Tesla FSD Beta ? По словам директора по искусственному интеллекту Tesla Андрея Карпатого, методом является имитационное обучение : Когда вы ведете машину, на самом деле вы вводите данные, потому что управляете рулем. Вы рассказываете нам, как перемещаться по разным средам… Мы обучаем нейронную сеть этим траекториям, а затем нейронная сеть предсказывает пути только на основе этих данных. Так что на самом деле то, что обычно называют..

Инкрементное имитационное обучение (обучение с обратным подкреплением) с отсутствующими данными

Эта статья предназначена для двух типов целевой аудитории: читателей, которые слышали об имитационном обучении и обучении с обратным подкреплением, но не работали с ними; и специалисты, работавшие в этих областях. Эта статья призвана подчеркнуть недавний прогресс, достигнутый в области онлайн-обучения с обратным подкреплением (IRL), путем представления новых вкладов, сделанных моей исследовательской группой в Arora et al.². Он начинается с общей структуры для..