Атласы активации - это модель интерпретируемости машинного обучения, используемая Google и OpenAI

"Искусственный интеллект"

Атласы активации - это модель интерпретируемости машинного обучения, используемая Google и OpenAI

В новом методе используются умные визуализации для моделирования человеческого понимания изображений.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 100 000 человек. TheSequence - это информационный бюллетень, ориентированный на ML (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:

TheSequence
Подпишитесь, чтобы быть в курсе самых актуальных проектов и исследовательских работ в мире искусственного интеллекта. Нам доверяют 102 000 +… thesequence.substack.com

Интерпретируемость - одна из самых больших проблем глубоких нейронных сетей, особенно тех, которые имеют дело с неструктурированными наборами данных, такими как изображения. Понять, как модель классификации изображений формирует свои знания, практически невозможно. Хотя модели классификации изображений оказались более эффективными, чем системы, эквивалентные человеку, отсутствие интерпретируемости ограничивает их применимость, поскольку мы не можем проводить аудит или эффективно устранять неполадки этих моделей. Два года назад исследователи из Google и OpenAI опубликовали статью, в которой предлагается метод визуализации промежуточных представлений метода классификации изображений.

В исследовательской статье под названием Изучение нейронных сетей с помощью активационных атласов представлена методика, называемая активационными атласами, которая помогает нам понять, что нейронные сети видят при представлении набора данных изображения. Атласы активации заимствуют некоторые идеи из нейробиологии, чтобы попытаться понять промежуточные представления изображений нейронной сети. Когда мы получаем зрительные сенсорные сигналы через глаза, информация обрабатывается неокортексом мозга. Различные типы визуальных сигналов активируют разные наборы нейронов, которые соединяются вместе, чтобы активировать знание воспринимаемых объектов. Фактическое знание строится не отдельными нейронами, а группами взаимосвязанных нейронов.

Аналогия с нейронами, соединенными вместе для построения определенных представлений знаний, прекрасно применима к моделям классификации изображений. Первоначальная работа по интерпретируемости классификации изображений была сосредоточена на понимании представления, созданного отдельными нейронами, которое, хотя и было полезным, привело к ограниченным при попытке понять представления, созданные слоями сети. Другие методы, такие как парная активация, ориентированы на изучение связей между нейронами, но очень часто терпят неудачу, учитывая большое количество измерений моделей классификации изображений.

Атлас активации

Методика, предложенная Google и OpenAI, берет свое начало в вызове метода Feature Visualization, который был представлен в статье Строительные блоки интерпретируемости в прошлом году. Концептуально визуализация функций - это цепочка исследований, которая пытается ответить на этот вопрос, позволяя нам видеть глазами сеть. Все началось с исследования визуализации отдельных нейронов и попыток определить, на что они реагируют. Поскольку нейроны не работают изолированно, это привело к применению визуализации признаков к простым комбинациям нейронов. Применение активаций функций к группам нейронов создает проблемы с определением, к каким нейронам нужно применить метод. Очевидный ответ, кажется, состоит в изучении нейронов, которые активируются при заданном входе. Однако у этого подхода есть ограничение, заключающееся в том, что он не дает полного представления о сети, а дает только ту часть, которая активируется для определенного входа.

Давайте попробуем объяснить это, используя базовую аналогию, основанную на человеческом мозге. Представьте, что мы пытаемся понять, какие области неокортекса активируются при чтении разных слов. Эквивалентом визуализации функций в этом сценарии будет изучение нейронной активации для разных букв алфавита. Хотя эта информация по-прежнему актуальна, она не дает полной картины, поскольку эти буквы можно комбинировать разными способами, чтобы образовать разные слова, которые вызовут активацию разных взаимосвязанных нейронов.

Атлас активации основан на принципах визуализации функций, но расширяет их, чтобы обеспечить глобальное представление о сети. Вместо того чтобы сосредотачиваться на активациях, вызванных входным изображением, атласы активации предоставляют визуализацию общих комбинаций нейронов. В наших примерах распознавания слов атласы активации покажут активации для общих комбинаций слов, обеспечивая более полное представление о том, как узнать, как знания создаются в сети.

С технической точки зрения атлас активации создается путем сбора данных о внутренних активациях каждого из этих слоев нашей нейронной сети из миллиона изображений. Эти активации, представленные сложным набором многомерных векторов, проецируются в полезные 2D-схемы с помощью UMAP, метода уменьшения размерности, который сохраняет некоторую часть локальной структуры исходного многомерного пространства. На следующем рисунке показана разница между визуализацией отдельных нейронов и активационными атласами.

Чтобы проверить идеи атласов активации, Google и OpenAI создали сверточную нейронную сеть (CNN) под названием InceptionV1. Архитектура состоит из ряда уровней, которые мы называем «смешанный3а», «смешанный3б», «смешанный4а» и т. Д., А иногда сокращаем его до «3а». Каждый слой последовательно наращивает предыдущие слои.

Чтобы применить атласы активации к InceptionV1, первым делом необходимо передать изображение в сеть и передать его на интересующий слой. Фреймворк собирает количество активаций. Если нейрон возбуждается тем, что он показывает, значение его активации будет положительным. Результаты показаны на следующем рисунке:

При использовании одного изображения преимущества атласов активации не сразу очевидны по сравнению с некоторыми из его предшественников. Одним из основных вкладов атласов активации является то, что их можно легко применять к наборам данных из миллионов изображений. Чтобы проверить это, Google и OpenAI протестировали InceptionV1 со случайным набором данных из миллиона изображений. В этом процессе модель собирает одну случайную пространственную активацию для каждого изображения, которое затем передается через UMAP, чтобы уменьшить их до двух измерений. Затем они наносятся на график с аналогичными активациями, размещенными рядом друг с другом. Наконец, модель рисует сетку и усредняет активации, которые попадают в ячейку, и запускает инверсию признаков для усредненной активации. Весь процесс показан на следующем рисунке:

Чтобы протестировать атласы активации на различных моделях классификации изображений, Google и OpenAI опубликовали очень интересную демонстрацию. Для каждой нейронной сети можно буквально увидеть интерпретацию модели. Кроме того, код также может использоваться непосредственно в разных блокнотах Jupyter.

Атласы активации - одна из самых творческих работ, которые я видел с точки зрения интерпретируемости нейронных сетей. Обеспечивая видимость по всей сети, атласы активации обеспечивают уникальную видимость развивающегося процесса накопления знаний в нейронных сетях и обеспечивают чистый механизм, позволяющий «заглянуть внутрь черного ящика».

Атласы активации - это модель интерпретируемости машинного обучения, используемая Google и OpenAI

"Искусственный интеллект"