Исследователи DeepMind создали модель, позволяющую воспроизводить прошлый опыт таким образом, чтобы имитировать механизмы в гиппокампе.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 150 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Способность использовать знания, извлеченные из предыдущего опыта, — одно из волшебных качеств человеческого обучения. На наши сны часто влияет прошлый опыт, и любой, кто пережил травматический опыт в прошлом, может рассказать вам, как постоянно мы видим его вспышки в новых ситуациях. Человеческий мозг способен делать важные выводы в отсутствие данных, обобщая прошлый опыт. Это воспроизведение опыта десятилетиями озадачивало нейробиологов, поскольку оно является важным компонентом наших процессов обучения. В области искусственного интеллекта (ИИ) идея нейронных сетей, которые могут спонтанно воспроизводить изученный опыт, кажется фантастикой. Два года назад группа исследователей ИИ из DeepMind опубликовала увлекательную статью, описывающую метод, направленный именно на это.

В неврологии способность мозга делать выводы из прошлого опыта называется воспроизведением. Хотя многие механизмы, лежащие в основе воспроизведения опыта, до сих пор неизвестны, исследования в области нейробиологии достигли значительного прогресса в объяснении когнитивного феномена. Понимание нейробиологических корней воспроизведения опыта необходимо для того, чтобы воссоздать его механику в агентах ИИ.

Неврологическая теория воспроизведения

Истоки нейронного воспроизведения можно отнести к работе таких исследователей, как лауреат Нобелевской премии по медицине Джон О’Киф. Доктор О’Киф уделяет много внимания объяснению роли гиппокампа в создании переживаний. Гиппокамп представляет собой искривленное образование в мозгу, которое является частью лимбической системы и обычно связано с формированием новых воспоминаний и эмоций. Поскольку мозг латерализован и симметричен, на самом деле у вас есть два гиппокампа. Они расположены чуть выше каждого уха и примерно на полтора дюйма внутри головы.

Ведущие нейробиологические теории предполагают, что разные области гиппокампа связаны с разными типами воспоминаний. Например, задняя часть гиппокампа участвует в обработке пространственных воспоминаний. Используя аналогию с архитектурой программного обеспечения, гиппокамп действует как система кэширования воспоминаний; получение информации, ее регистрация и временное хранение перед отправкой для хранения в долговременной памяти.

Возвращаясь к работе доктора О’Кифа, одним из его ключевых вкладов в нейрофизиологические исследования стало открытие клеток места, которые представляют собой клетки гиппокампа, активирующиеся в зависимости от конкретных условий окружающей среды, таких как данное место. В одном из экспериментов доктора О’Киф крысы бежали по одному коридору или круговой дорожке, поэтому исследователи могли легко определить, какой нейрон кодирует каждую позицию в коридоре.

После этого эксперимента ученые записали те же самые нейроны, пока крысы отдыхали. Во время отдыха клетки иногда спонтанно активировались в быстрых последовательностях, размечая тот же путь, который животное пробежало ранее, но со значительно ускоренной скоростью. Они назвали эти последовательности повторением опыта.

Несмотря на то, что мы знаем, что воспроизведение опыта является ключевой частью процесса обучения, его механику особенно сложно воссоздать в системах ИИ. Отчасти это связано с тем, что воспроизведение опыта зависит от других когнитивных механизмов, таких как концептуальные абстракции, которые только начали проникать в мир ИИ. Однако команда DeepMind считает, что у нас достаточно для начала.

Повтор в ИИ

Из различных областей ИИ обучение с подкреплением кажется особенно подходящим для включения механизмов воспроизведения опыта. Агент обучения с подкреплением накапливает знания, постоянно взаимодействуя с окружающей средой, что позволяет ему записывать и воспроизводить прошлый опыт более эффективно, чем традиционные контролируемые модели. Некоторые из ранних работ по воссозданию воспроизведения опыта в агентах обучения с подкреплением восходят к исходной статье 1992 года, которая оказала влияние на создание сетей DeepMind DQN, которые освоили игры Atari в 2015 году.

С точки зрения архитектуры добавление опыта воспроизведения в сеть обучения с подкреплением кажется относительно простым. Большинство решений в этой области основывались на дополнительном буфере воспроизведения, который записывает опыт, полученный агентом, и воспроизводит его в определенное время. Некоторые архитектуры предпочитают воспроизводить опыт случайным образом, в то время как другие используют определенный предпочтительный порядок, который оптимизирует процесс обучения агента.

Способ воспроизведения опыта в модели обучения с подкреплением играет ключевую роль в обучении агента ИИ. На данный момент два из наиболее активно экспериментируемых режимов известны как повторы кино и воображения. Чтобы объяснить оба режима, воспользуемся аналогией из статьи DeepMind:

Предположим, вы приходите домой и, к своему удивлению и тревоге, обнаруживаете, что на вашем красивом деревянном полу скапливается вода. Войдя в столовую, вы находите разбитую вазу. Затем вы слышите хныканье и выглядываете из-за двери внутреннего дворика, чтобы увидеть, что ваша собака выглядит очень виноватой.

Агент обучения с подкреплением, основанный на предыдущей архитектуре, запишет следующую последовательность в буфер воспроизведения.

Воспроизведение фильма воспроизведет сохраненные воспоминания в точном порядке, в котором они происходили в прошлом. В этом случае буфер воспроизведения будет воспроизводить последовательность e: «вода, ваза, собака» именно в таком порядке. Архитектурно наша модель будет использовать автономного обучающего агента для воспроизведения этого опыта.

В стратегии воображения воспроизведение не буквально воспроизводит события в том порядке, в котором они были прожиты. Вместо этого он выводит или воображает реальные отношения между событиями и синтезирует последовательности, которые имеют смысл при понимании того, как устроен мир. Теория воображения пропускает точный порядок событий и вместо этого делает вывод о наиболее правильной связи между переживаниями. С точки зрения архитектуры агента последовательность воспроизведения будет зависеть от текущей изученной модели.

Концептуально исследования в области нейробиологии предполагают, что повтор фильма был бы полезен для укрепления связей между нейронами, которые представляют различные события или места в том порядке, в котором они были пережиты. Однако воспроизведение воображения может быть основой для создания новых последовательностей. Команда DeepMind настаивала на этой теории воспроизведения воображения и на том, что агент обучения с подкреплением смог заставить генерировать замечательные новые последовательности, основанные на предыдущем опыте.

Текущие реализации повторного воспроизведения опыта в основном следуют стратегии фильма, основанной на ее простоте, но исследователи начинают вторгаться в модели, которые напоминают стратегию воображения. Конечно, включение модулей воспроизведения опыта может стать отличным катализатором обучения агентов обучения с подкреплением. Еще более захватывающим является тот факт, что, наблюдая за тем, как агенты ИИ воспроизводят опыт, мы можем получить новое представление о нашем собственном человеческом познании.