Резюме статьи: «Дифференцируемая пластичность: обучение пластических нейронных сетей с обратным распространением»

Авторы статьи: Томас Микони, Джефф Клун, Кеннет О. Стэнли

Абстрактный:

В нашем мозгу пластичность позволяет эффективно обучаться на протяжении всей жизни - так почему бы нам не применить это для нейронных сетей? Но эта статья использует другой подход и использует градиентный спуск для пластичности! Они использовали его для RNN и смогли выполнить реконструкцию изображения, задачу Omniglot и исследование лабиринтов лучше, чем его непластиковые аналоги. Отличная пластичность - мощный подход к метаобучению.

Вступление:

Недавнее машинное обучение = вы тренируете сеть в течение долгого времени, пока она не станет в ней безумно хороша, но если мы изменим задачу, которую она должна выполнять, нам придется заново обучать ее.

С другой стороны, животные могут учиться чрезвычайно быстро и эффективно - часто они могут узнавать что-то после единственного выстрела. . Животные все время учатся - и если мы наделим этой силой искусственных агентов, они смогут справиться с изменяющейся / непредсказуемой / неизвестной средой.

И мы могли бы спроектировать его так, чтобы элементы, которые остаются фиксированными, сохранялись в пластиковых гирях (геномах животных), а элементы, которые должны быть изучены / изменены, сохранялись в сети политик (мозг животных).

В мозге животных долгосрочное обучение происходит за счет синаптической пластичности, когда усиление и ослабление нейронов происходит в результате нейронной активности. Самая популярная их версия - правило Хебба: нейроны, которые срабатывают вместе, соединяются вместе.

В эволюционных алгоритмах много исследовали пластичность, но глубокое обучение ее мало коснулось. Но что, если бы мы могли воспользоваться огромными скачками в градиентном спуске и применить их к пластиковым соединениям?

Они выполнили это по трем задачам: Омниглот (который показал конкурентные результаты), Исследование лабиринта (превзошло непластические сети) и запоминание сложных паттернов (превзошли непластические на порядок).

Отличная пластичность:

В нашей сети будут отдельные непластиковые и пластиковые компоненты. Итак, мы начинаем с двух нейронов, i и j:

Между ними есть 2 гири, нормальный соединительный вес (w) и пластиковый (Hebb), называемый хеббийским следом. Обычное соединение останется на протяжении всего эпизода, но хеббийские соединения будут меняться по ходу эпизода.

Примером хеббийского следа может быть скользящее среднее пре- и постсинаптических весов. Эти два веса просто складываются друг с другом, но мы масштабируем важность, умножая пластиковую часть на коэффициент пластичности α. Итак, суммируя все вместе:

Выход нейрона j в момент времени t (это повторяющаяся сеть) = активация (ReLU или что-то еще) суммы итераций через входные данные → Нормальная часть (нормальные веса x активация входных нейронов) + пластическая часть (коэффициент пластичности x (вес следа Хебба x активация входных нейронов))

Таким образом, сеть может определять, что ей нужно. Он может быть полностью пластичным (w = 0), полностью непластическим (α = 0) или их сочетанием.

В начале каждого выпуска веса Хебба инициализируются на 0. Нормальные веса и α сохраняются, и они изучаются посредством градиентного спуска.

Как мы будем изучать веса Хебба во время эпизода? Что ж, мы могли бы использовать такой подход:

На следующем временном шаге хеббийская трассировка равна: скорость обучения x активация i на предыдущем временном шаге x активация j в текущем временном шаге + уменьшение веса (1-скорость обучения) x текущая хеббийская трассировка.

Почему у нас снижение веса? Так что не будет циклической положительной обратной связи. Но снижение веса вызывает проблемы, потому что что, если активация входа равна 0 несколько раз подряд? Что ж, тогда наша трассировка по Hebbian приближается к нулю. Это бесполезно → Итак, мы можем реализовать что-то под названием Правило Оджи:

Правило Оджи позволяет поддерживать стабильную долговременную память , а предотвращать расхождения с побегами.

Связанных с работой:

Обучение обучению существует с 1998 года. Простой подход к этой проблеме - обучить RNN - он берет временной интервал, выдает прогноз, а затем получает сигнал вознаграждения, который используется для обновить веса (ибби).

Мы также можем подарить RNN память, используя банки памяти + сеть контроллеров для чтения и записи в нее. У нас также может быть необучаемая пластичность, когда пластиковый компонент автоматически выполняет свою работу, используя только входы и выходы. Это может привести к быстрым весам, где веса меняются быстро, что позволяет сети выделять недавно обнаруженные закономерности.

Также есть возможность узнать скорость обучения. Или пусть все веса будут вычисляться на лету сетью / другой сетью. Другой подход - иметь базовую сеть, которая обновляет свои веса во время эпизода с обратным распространением.

Преимущество обучаемой синаптической пластичности в том, что она очень гибкая. Другие методы не так гибки - например, когда сетям памяти приходится иметь дело с векторами фиксированного размера. Но с пластичностью у нас могут быть гораздо более гибкие типы воспоминаний.

RNN с фиксированным весом ограничены. Хотя теоретически они могут учиться всему, что захотят, ограничение типов нейронов = заставляет их производить стереотипное поведение. Но тренируемая пластичность дает возможность гибкости и, следовательно, более изощренного поведения.

Эксперименты и результаты:

Запоминание шаблона: двоичные шаблоны

Задача = мы загружаем тонну из 1000 бинарных паттернов. Затем мы показываем ему те же шаблоны, но он наполовину преобразован, и сеть должна восстановить его, извлекая из своей памяти:

Сеть = RNN. Если он полностью заполнен, каждый нейрон получит 1 вход. (следовательно, есть 1001 параметр, +1 из-за смещения). Но если он заштрихован, вход идет от его боковых соединений, и он должен выводить правильную последовательность.

И кривая обучения:

Он может сходиться за 200 серий! А теперь сравним это с пластичностью:

Непластиковые сети не смогли решить эту проблему. Они могли решить это только тогда, когда они на тонну заглушили проблему.

Но давайте немного усложним - естественные изображения (CIFAR-10). Вот как выглядел набор тестов:

Мы также можем визуализировать веса!

Для Hebbian: мы видим, что здесь много диагональных линий, потому что существует высокая корреляция с соседними пикселями. Но чередующиеся полосы = для быстрого отключения сетевой активности.

Для изученной сети: тоже есть структура, но они ее протестировали, и кажется, что это просто бесполезный артефакт обучения:

Они также выполнили задачу с однородной пластичностью, где коэффициент пластичности α устанавливается одинаковым для всей сети:

Однократное обучение:

Они также протестировали его на однократном обучении, чтобы увидеть, насколько хорошо он применим для других задач. Они использовали Омниглот, который представляет собой набор из 1623 рукописных цифр. Каждая цифра содержит только 20 изображений, поэтому это хороший набор данных для обучения за несколько шагов или за один раз.

Они обучили сеть однократному обучению. Во время обучения вы представляете 5 случайных классов по 1 изображению в каждом, а затем оцениваете сеть! Они разделили классы на тренировочную и тестовую и получили соревновательные результаты:

Обучение с подкреплением:

Итак, у нас есть «лабиринт» 9x9 с колоннами, расположенными в виде сетки. Одна из плиток - награда. Когда агент наступает на плитку, он получает награду + переносится в случайное место. Плитка награды фиксированная, но невидимая для агента. И вход - это окружение 3x3 вокруг него.

Мы обучили его пластической, непластической и однородной пластичности - вот результаты:

Существует огромная разница, потому что более простые RNN застрянут с неоптимальной стратегией.

Обсуждение и вывод:

Пластичность - это выбор матери-природы в том, как учиться. Но что интересно, современное машинное обучение его не использует. Изучение опыта может значительно улучшить решение реальных проблем.

Эта статья подчеркивает силу пластичности, но также является первой работой, в которой сочетается обратное распространение с пластичностью, что дает возможность пластичности воспользоваться преимуществами. лет исследований градиентных методов.

Это применимо к любой проблеме метаобучения - например, к увеличению нейромодуляции. Но также и в других областях, например, в RNN, пластичность может быть стандартом. Этот документ открывает дверь в мир возможностей!

Если вы хотите узнать больше: прочтите статью!

Спасибо за прочтение! Я Диксон, 18-летний энтузиаст машинного обучения, который рад использовать его, чтобы повлиять на миллиарды людей 🌎

Если вы хотите присоединиться к моему путешествию, вы можете подписаться на мой ежемесячный информационный бюллетень, проверить мой веб-сайт и подключиться к LinkedIn или Twitter 😃

Чувствуете, что собираетесь прыгнуть в кроличью нору, прочитав эти невероятные статьи?
Не волнуйтесь, мы чувствуем то же самое.
Вы можете не только прыгнуть с нами в кроличью нору, но и но у нас есть более чем достаточно статей, которые помогут вам выпрыгнуть;)
Лучшие идеи о Medium от самых молодых умов поколения можно найти на сайте студенты x студенты.