Возможно ли клонирование поведения / имитационное обучение как обучение с учителем?
Ответ НЕТ для клонирования поведения животного или человека, но хорошо работал с автономным транспортным средством. Https://papers.nips.cc/paper/95-alvinn-an-autonomous-land-vehicle-in-a-neural-network. Автономное транспортное средство DARPA (DAVE) использовало модель ALVINN и более позднюю модель NVIDIA (Bojarski et al. '16, NVIDIA) (CNN), показавшую, что клонирование возможно для изучения всей задачи движения по полосе и дороге без ручного разбиения на обнаружение дороги или разметки полос. семантическая абстракция, планирование пути и контроль. Модель смогла изучить важные особенности дороги по очень редкому обучающему сигналу (только рулевое управление).
Обучение поведению или имитационное обучение является успешным, когда распределение траектории (политика с действием состояния) агента или обучаемого соответствует эксперту или инструктору (GANs - Generative Adversarial Networks, Goodfellow et al. 2014). Проблема в клонировании - действия по траектории взаимозависимы!
Мы непосредственно контролируем обучение отображать состояния в действия, демонстрируя траектории и показывая способы справиться с пренебрежением взаимозависимостью действий. Изучение скрытых вознаграждений или целей является косвенным (обучение с обратным подкреплением!).
Кто здесь эксперты?
Эксперты являются людьми, Оптимальные или близкие к Оптимальным Планировщики / Контроллеры с предположениями, такими как экспертные траектории, являются i.i.d. а распределение обучающих данных совпадает с распределениями тестовых данных.
Наблюдение (O t) - › Модель (policy (Ut | Ot)) -› Действие (Ut)
Вождение вручную - ›Данные обучения -› Обучение с учителем - ›политика (Ut | Ot)
Агрегация наборов данных
Https://www.cs.cmu.edu/~sross1/publications/Ross-AIStats11-NoRegret.pdf
- Расширение:
Расширение помогает нам извлекать из данных как можно больше информации. Мы сгенерируем дополнительные данные, используя следующие методы увеличения данных. Дополнение - это метод манипулирования входящими обучающими данными для создания большего количества экземпляров обучающих данных. Этот метод использовался для разработки мощных классификаторов с небольшим объемом данных.
Https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html. Однако увеличение очень специфично для цели нейронной сети.
Ссылки
Https://papers.nips.cc/paper/2847-off-road-obstacle-avoidance-through-end-to-end-learning
Http://repository.cmu.edu/cgi/viewcontent.cgi?article=2874&context=compsci
Https://katefvision.github.io/katefSlides/immitation_learning_I_katef.pdf