Используя обучение с подкреплением (обучение более совершенным действиям для получения кумулятивного вознаграждения), ученые из DeepMind Technologies разработали модель глубокого обучения для политик управления обучением непосредственно на основе многомерных сенсорных входных данных, применяемых для обучения и игры в различные игры с Atari 2600. В модели используется сверточная нейронная сеть, обученная с вариантом Q-обучения (она работает путем изучения функции действия-ценности, которая в конечном итоге дает ожидаемую полезность от выполнения данного действия в заданном состоянии и следования оптимальной политике после этого https://en.wikipedia.org/wiki/Q-learning), чьи входные данные — необработанные пиксели, а выходные данные — функция ценности, оценивающая будущие вознаграждения.

Использовалась сверточная сеть, так как входными данными являются кадры Atari 2600 (210x160 RGB при 60 Гц). Проблема в том, что данных очень много и их трудно обрабатывать в режиме реального времени. Решение состояло в том, чтобы предварительно обработать их, преобразовав их в оттенки серого и понизив дискретизацию до изображения 110x84. Затем изображение было обрезано до области размером 84x84, содержащей игровое поле.

Первый скрытый слой объединяет 16 фильтров 8x8 с шагом 4 и применяет нелинейность выпрямителя. Второй скрытый слой сворачивает 32 фильтра 4x4 с шагом 2 с другим выпрямителем. Последний скрытый слой является полносвязным и состоит из 256 выпрямительных блоков. Выходной слой представляет собой полносвязный линейный слой с одним выходом для каждого допустимого действия (от 4 до 18). Эта сеть называется Deep Q-Network (DQN).

В процессе обучения этой архитектуры есть одна особая характеристика. Существует метод, известный как воспроизведение опыта, который сохраняет опыт агента на каждом временном шаге, объединенный по многим эпизодам, в память воспроизведения. Это позволяет ИИ различать некоторые действия, которые работали в прошлом и в каких условиях, и обновлять веса. Кроме того, на самом деле обучение непосредственно из последовательных выборок неэффективно из-за сильных корреляций между выборками, их рандомизация нарушает эти корреляции и уменьшает дисперсию обновлений.

Это было протестировано с 7 различными играми: Beam Rider, Breakout, Enduro, Pong, Q*bert, Sequest и Space Invaders. ИИ превзошел все предыдущие подходы в шести играх и превзошел человека-эксперта в трех из них.

Чтобы узнать больше: https://arxiv.org/abs/1312.5602