Автор: Каран Гревал, инженер-исследователь Numenta

Люди удивительно сильны в обучении и сохранении знаний с течением времени, несмотря на то, что входные данные восприятия, которые мы получаем от мира, постоянно меняются. К сожалению, этого нельзя сказать об искусственных нейронных сетях, и это, следовательно, ограничивает варианты их использования настройками, в которых от них требуется только выполнение одной задачи.

В нашем новом препринте под названием Выходя за пределы точечного нейрона: активные дендриты и разреженные представления для непрерывного обучения мы исследовали, как дополнить нейронные сети свойствами реальных нейронов, в частности активными дендритами и разреженные представления. Вдохновленные результатами нейробиологии, мы предположили, что эти механизмы позволят сохранять знания с течением времени. Мы обнаружили, что эти дополнения значительно повысили способность сети к последовательному обучению, как это легко делают люди.

Что такое непрерывное обучение и почему нейронные сети плохо с этим справляются?

Непрерывное обучение — это способность последовательно изучать новые элементы или понятия, не теряя ранее приобретенных знаний. Люди делают это без особых усилий, и это очень важно для повседневной жизни: когда мы осваиваем новый навык в школе или на работе, мы не забываем, как пользоваться смартфоном, как вернуться домой после этого или как представиться новому коллеге. все, что мы ранее научились делать. Нейронные сети, с другой стороны, борются с такими обстоятельствами, и это явление известно как катастрофическое забывание. (Мы также обсуждали постоянное обучение и катастрофическое забывание в предыдущем сообщении в блоге.) Таким образом, нейронные сети можно использовать только для выполнения одной конкретной задачи, и даже несмотря на то, что они превосходят человеческие возможности в определенных задачах (например, при игре в го), они широко известен как узкий ИИ.

Забывание в нейронных сетях является следствием двух аспектов, действующих в унисон. Во-первых, примерно половина нейронов «срабатывает» при любом входе, который обрабатывает сеть. Во-вторых, алгоритм обучения с обратным распространением, который позволяет обучаться в нейронных сетях, изменяет соединения всех возбуждающих нейронов. (Это следствие математики обратного распространения.)

Объединив эти два аспекта, можно сделать вывод, что обучение прогнозированию выходных данных для одного входа приводит к изменению примерно половины всех соединений! (На карикатурной иллюстрации ниже это будут все зеленые соединения.) «Знания» нейронной сети существуют исключительно в связях между нейронами, поэтому ранее приобретенные знания быстро стираются, когда сеть пытается изучить новые вещи. Это ужасный результат с точки зрения постоянного обучения, поскольку большая часть сети постоянно меняется.

Как активные дендриты и разреженность обеспечивают непрерывное обучение

Поскольку люди постоянно учатся, мы исследовали два основных биологических свойства, которые обеспечивают эту способность. Во-первых, в отличие от искусственных нейронов (в нейронной сети), большинство входных сигналов, получаемых биологическим нейроном, не могут напрямую вызывать его срабатывание, однако они могут повысить вероятность срабатывания нейрона, а сегменты которые получают эти входные данные, называются активными дендритами. Чтобы представить это, представьте себе гонку с пятью спринтерами на стартовой линии. Только один из них слышит «Готово, поставил…». Она предчувствует, что гонка вот-вот начнется, и готовится к бегу. Здесь эффект «Готово, готово…» для единственного бегуна, услышавшего этот сигнал, эквивалентен активным дендритам, запускающим нейрон в возбуждение. На следующей диаграмме зеленые стрелки соответствуют вводу с прямой связью, который непосредственно вызывает срабатывание биологического или искусственного нейрона, а синие стрелки представляют ввод, полученный активными дендритами, который может повысить вероятность срабатывания нейрона.

Во-вторых, в мозгу возникают разреженные представления, поскольку возбуждение нейронов очень редкое. Разреженность является следствием локального торможения, свойства, благодаря которому, если нейрон активируется, другие соседние нейроны не могут одновременно активироваться, и это в значительной степени мотивировало предыдущую работу над разреженностью в Numenta. Возвращаясь к аналогии со спринтером, когда все бегуны слышат Давай, единственный спринтер, услышавший подготовительный сигнал, выпрыгивает далеко впереди других бегунов, которые затем сдаются и решают дождаться следующего забега. Влияние других бегунов, наблюдающих за тем, кто выпрыгивает вперед, является тормозящим эффектом.

Чего достигают активные дендриты и разреженные представления? Активные дендриты определяют, когда нейрон может активироваться (что может происходить в разное время для каждого нейрона), в то время как разреженность гарантирует, что только небольшая часть нейронов активируется в любой момент времени. Соединяя эти два фактора вместе, мы получаем разные нейронные цепи, состоящие в основном из отдельных наборов нейронов, которые специализируются на обучении или выполнении разных задач. Поскольку обучение в мозгу само по себе является разреженным процессом, только нейроны в активной цепи видят, что их связи с другими нейронами изменяются; все остальные нейроны и их связи остаются без изменений. Это серьезный отход от алгоритма обратного распространения, обновляющего примерно половину всех соединений в нейронной сети.

Работает ли он в силиконе?

Мы воплотили вышеупомянутые идеи в программную реализацию. В нашей модели искусственный нейрон был дополнен дендритными сегментами (то есть дополнительными соединениями), которые получали входные данные от источника, отличного от прямых связей, и соответствующим образом модулировали поведение нейрона.

Функция k-Winner-Take-All разрежила представления, выбрав для срабатывания всего 5% всех нейронов в любом отдельном слое. Соединяя эти компоненты вместе, мы надеялись активировать подсети нейронов на основе различных входов в дендритные сегменты. Таким образом, алгоритм обратного распространения будет изменять только соединения нейронов в каждой подсети, оставляя остальные соединения во всей сети нетронутыми. На приведенном ниже рисунке показано, как различные входные данные, полученные дендритными сегментами, будут вызывать отдельные подсети для обучения и специализации в различных задачах.

Как мы жили? Мы протестировали нашу расширенную сеть на тесте permutedMNIST, стандартном тесте непрерывного обучения. Каждое задание состоит из классификации рукописных цифр от 0 до 9, но с попиксельной перестановкой, применяемой ко всем изображениям (перестановка является случайной и уникальной для каждой задачи). Как показано ниже, наша нейронная сеть, дополненная (искусственными) активными дендритами и разреженными представлениями, может последовательно изучать до 100 задач и сохранять точность не менее 80%, в то время как стандартные нейронные сети имеют точность менее 50% при таком количестве задач!

Кроме того, наш анализ показывает, что наша сеть действительно задействует отдельные подмножества нейронов для обучения различным задачам. На приведенной ниже диаграмме каждая строка показывает, какие нейроны в одном из промежуточных слоев нашей сети активировались при оценке всей сети на изображениях из разных задач. Как видно, разные задачи задействуют очень разные наборы нейронов.

Обратите внимание, что наш препринт включает гораздо больше деталей, в том числе сравнения с другими методами, которые мы не обсуждаем в этом сообщении блога.

Краткое содержание

В этом сообщении в блоге мы подчеркнули важность постоянного обучения, почему нейронные сети не могут этого сделать, а также первоначальную попытку улучшить сохранение своих знаний за счет включения биологических принципов. Сегодня большинство нейронов в нейронной сети активируются во время прямого прохода, а алгоритм обратного распространения настраивает большинство соединений, когда происходит обучение. По сути, ранее полученные знания со временем постепенно стираются. Мозг отличается от нейронных сетей тем, что 1) одновременно срабатывает лишь небольшое количество нейронов и 2) обучение влияет только на немногочисленное подмножество связей. Принципы, лежащие в основе активных дендритов и разреженных представлений, применяемые к нейронным сетям, могут привести к появлению разреженных подсетей, которые специализируются на изучении конкретных задач, не затрагивая другие подсети, обученные другим задачам, и это значительно улучшает возможности непрерывного обучения.

Поскольку мы стремимся создавать системы, демонстрирующие человеческий интеллект, все еще существует большой разрыв между условиями, в которых люди надежно работают, и теми, с которыми могут справиться машины. В настоящее время нейронные сети способны с замечательной точностью решать одну задачу, но только одну задачу. Создание интеллектуальных машин потребует овладения набором навыков, каждый из которых будет использоваться в разное время и в разных условиях. Это может быть так же просто, как вспомнить, как вернуться домой после нескольких часов, потраченных на изучение основ квантовой механики, или осознать, что увидеть льва во время похода в джунгли означает, что вам следует бежать, спасая свою жизнь. Человек, который постоянно забывает прошлый опыт, будет в большой беде. Мы должны решить проблему постоянного обучения, прежде чем машины действительно станут разумными.

Читайте наш препринт здесь: Выходя за пределы точки нейрона: активные дендриты и разреженные представления для непрерывного обучения

Если вам понравилась эта статья, нажмите на значок Аплодисменты ниже, чтобы порекомендовать ее своим подписчикам. Чтобы узнать больше о том, как наша работа помогает развивать теорию мозга и машинный интеллект, посетите наш веб-сайт или подпишитесь на нас в Твиттере.

Первоначально опубликовано на numenta.com 8 ноября 2021 г.