Глубокое подкрепление: имитационное обучение

Возможно ли клонирование поведения / имитационное обучение как обучение с учителем?

Ответ НЕТ для клонирования поведения животного или человека, но хорошо работал с автономным транспортным средством. Https://papers.nips.cc/paper/95-alvinn-an-autonomous-land-vehicle-in-a-neural-network. Автономное транспортное средство DARPA (DAVE) использовало модель ALVINN и более позднюю модель NVIDIA (Bojarski et al. '16, NVIDIA) (CNN), показавшую, что клонирование возможно для изучения всей задачи движения по полосе и дороге без ручного разбиения на обнаружение дороги или разметки полос. семантическая абстракция, планирование пути и контроль. Модель смогла изучить важные особенности дороги по очень редкому обучающему сигналу (только рулевое управление).

Обучение поведению или имитационное обучение является успешным, когда распределение траектории (политика с действием состояния) агента или обучаемого соответствует эксперту или инструктору (GANs - Generative Adversarial Networks, Goodfellow et al. 2014). Проблема в клонировании - действия по траектории взаимозависимы!

Мы непосредственно контролируем обучение отображать состояния в действия, демонстрируя траектории и показывая способы справиться с пренебрежением взаимозависимостью действий. Изучение скрытых вознаграждений или целей является косвенным (обучение с обратным подкреплением!).

Кто здесь эксперты?

Эксперты являются людьми, Оптимальные или близкие к Оптимальным Планировщики / Контроллеры с предположениями, такими как экспертные траектории, являются i.i.d. а распределение обучающих данных совпадает с распределениями тестовых данных.

Наблюдение (O t) - › Модель (policy (Ut | Ot)) -› Действие (Ut)

Вождение вручную - ›Данные обучения -› Обучение с учителем - ›политика (Ut | Ot)

Агрегация наборов данных

Https://www.cs.cmu.edu/~sross1/publications/Ross-AIStats11-NoRegret.pdf

Расширение:

Расширение помогает нам извлекать из данных как можно больше информации. Мы сгенерируем дополнительные данные, используя следующие методы увеличения данных. Дополнение - это метод манипулирования входящими обучающими данными для создания большего количества экземпляров обучающих данных. Этот метод использовался для разработки мощных классификаторов с небольшим объемом данных.

Https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html. Однако увеличение очень специфично для цели нейронной сети.

Ссылки

Https://papers.nips.cc/paper/2847-off-road-obstacle-avoidance-through-end-to-end-learning

Http://repository.cmu.edu/cgi/viewcontent.cgi?article=2874&context=compsci

Https://katefvision.github.io/katefSlides/immitation_learning_I_katef.pdf

Глубокое подкрепление: имитационное обучение

Вопросы по теме