предыдущие сообщения: 01 02

На пути к лучшему пониманию нейронных сетей: визуализация внимания в моделях от последовательности к последовательности

Краткий обзор внимания

Идея «внимания» была впервые представлена ​​в сфере обработки естественного языка Bahdanau et al. (2014) в статье Нейронное машинное обучение путем совместного согласования и перевода. Идея довольно проста: если у нас есть модель кодера-декодера, на каждом временном шаге декодирования мы генерируем вектор весов внимания, соответствующий каждой из единиц кодирования. То есть при генерации каждого выходного токена мы обращаем «внимание» на определенные части входной последовательности. Интуитивно это во многом то, как мы, люди, зацикливаемся на частях текста для выполнения таких задач, как обобщение или ответы на вопросы.

Зачем нужна визуализация?

В машинном обучении нейронные сети всегда были чем-то вроде черного ящика. Мы знаем, что они невероятно хорошо работают в определенных контекстах, но часто бывает трудно понять, почему они работают так хорошо. Следующая цитата достаточно хорошо резюмирует необходимость интерпретируемости.

«Я считаю, что наиболее важным направлением будущих исследований является интерпретируемость. Механизм внимания, выявляя то, на что« смотрит »сеть, проливает драгоценный свет на черный ящик нейронных сетей, помогая нам отлаживать такие проблемы, как повторение и копирование. Чтобы добиться дальнейшего прогресса, нам нужно лучше понять, что RNN узнают из текста и как эти знания представлены ».

- Эбигейл Си, доктор философии - Стэнфордский университет, Итак, решено ли абстрактное реферирование? из Укрощение рекуррентных нейронных сетей для лучшего реферирования

Визуализация обеспечивает возможность интерпретации, отображая поведение сложных сетей в простых для понимания визуальных кодировках.

Обзор родственных работ

Хотя мне не известны какие-либо статьи, посвященные визуализации внимания, примеры можно легко найти как в опубликованной литературе, так и в онлайн-блогах. Для каждого примера ниже я выделю сильные и слабые стороны. В конечном итоге я надеюсь показать, что мы можем внести улучшения, которые могут улучшить интерпретируемость работы моделей внимания seq2seq.

Тепловые карты

Схема кодирования, используемая Bahdanau et al. (2014), тепловые карты были наиболее распространенным способом кодирования данных о внимании, который я обнаружил. Делая задачу поиска относительной корреляции эффективной, у них есть несколько недостатков.

  1. Трудно масштабировать. При выполнении задач, требующих больших входных или выходных данных (например, сотни или более токенов), размер тепловой карты быстро выходит из-под контроля. Прокрутка значительно снижает эффективность визуализации по отношению к задачам анализа.
  2. Сложно читать. Обычно мы не читаем в формате "токен на строку". Кроме того, исходный текст редко бывает в формате «токен на строку» - мы теряем информативную информацию, которую можно было бы извлечь из анализа исходной структуры текста.

Карты потоков

Менее распространенный, но тем не менее интересный. Этот вид потоковой карты имеет проблемы, аналогичные тем, что и тепловые карты. Можно также возразить, что тонкость линий и их характер штриховки мешают интерпретируемости.

Взаимодействие

Взаимодействие решает многие проблемы статических визуализаций, рассмотренных выше. Мы сохраняем структуру как входного, так и выходного текста, а поиск выполняется быстро и эффективно. Однако есть компромисс. Мы можем наблюдать за вниманием только одного слова за раз, и в результате трудно получить представление об общем охвате или структуре внимания.

Пример из практики: Обобщение

В частности, абстрактное обобщение. Резюмирование - это особенно интересный вариант использования внимания из-за требования уплотнения текста. Гипотеза состоит в том, что хорошие абстрактные модели смогут охватить большую часть исходного документа. Здесь я отмечаю разницу между экстрактивным и абстрактным обобщением. Первый предполагает дословный отбор фрагментов исходного текста. Последнее предполагает сжатый перефраз.

До недавнего времени большая часть работы по реферированию текста вращалась вокруг экстрактивного реферирования (см. И др., 2017). Однако растущее распространение повторяющихся нейронных сетей позволило сосредоточить внимание на абстрактном обобщении. Внимание сыграло важную роль в улучшении результатов. Ниже приводится краткий перечень актуальных работ.

Раш, Александр М. и соавт. «Модель нейронного внимания для абстрактного резюмирования предложений. EMNLP (2015). »

Наллапати, Рамеш и др. «Резюмирование абстрактного текста с использованием последовательностей RNN и не только. CoNLL (2016). »

Hasselqvist, Johan et al. «Абстрактивное обобщение на основе запросов с использованием нейронных сетей. CoRR abs / 1712.06100 (2017): n. стр. »

Паулюс, Ромен и др. «Модель с глубоким усилением для абстрактного обобщения. CoRR abs / 1705.04304 (2017): n. стр. »

См. Abigail et al. «Ближе к делу: обобщение с помощью сетей указателей-генераторов. ACL (2017 г.) ».

Обобщение конкретных проблем

Хотя визуализация внимания помогает пролить свет на работу моделей seq2seq, модели суммирования, в частности, не могут использовать это окно.

  1. Мы заботимся о том, где внимание падает точно так же, как и о том, на что оно падает. Мы надеемся на максимальное покрытие. В настоящее время это не рассматривается ни в одной из известных мне интерактивных визуализаций.
  2. У нас большие входные последовательности. Как обсуждалось в «Обзоре связанных работ», это особенно проблематично для статических визуализаций.

Имея это в виду, я предлагаю области для улучшения как интерактивной, так и статической визуализации.

Куда?

С интерактивными визуализациями две вещи.

Один. Покрытие - это совокупное внимание к последовательности выходных токенов. Пример, приведенный See et al. можно увидеть на рисунке ниже. Возможно, если вы позволите визуализировать совокупное внимание по фразе или предложению, это поможет нам понять внимание в более глобальном контексте.

Два. Извлечение против абстракции: В идеале мы хотим, чтобы наша модель училась абстрагировать, а не извлекать. Наблюдать за вниманием с точным соответствием 1: 1 менее интересно, чем наблюдать за вниманием к группам слов. Возможно, подчеркивание / уменьшение этого акцента в визуализациях может помочь в понимании моделей.

При статической визуализации есть две задачи анализа, для которых мы хотим оптимизировать.

  1. Резюме. Какова общая структура внимания (например, охват).
  2. Значение. Какие входные слова учитываются (т. е. фокусируются) на каждом временном шаге вывода?

Трудно разработать эффективную статическую визуализацию, которая хорошо справлялась бы с обеими этими задачами. Возможно, нам понадобится набор визуализаций. Например, одна визуализация может обеспечить лучшую производительность для сводного анализа, а другая - для анализа ценности. Кроме того, эти статические визуализации могут включать идеи, описанные в предыдущем разделе.

Кроме того, визуализации внимания до сих пор использовались для конкретных примеров. Возможно, есть способ просмотреть примеры, чтобы лучше понять поведение этих нейронных сетей. Полученные метрики внимания или охвата могут быть полезны для лучшего понимания и диагностики этих моделей.

Я надеюсь, что рассмотрение этих элементов как в интерактивной, так и в статической визуализации позволит нам лучше понять нейронные сети. В частности, я надеюсь, что результат можно будет использовать как ценный инструмент для анализа ошибок, даже помимо настройки гиперпараметров. Можно пролить свет на идеи, которые мотивируют добавления, ограничения или механизмы для оптимизации охвата (например, см. И др. (2017)) или абстракции.

План

Минимальный жизнеспособный план

  1. Разработайте плагин TensorBoard, который позволяет создавать статические и интерактивные визуализации, описанные в разделе Куда?
  2. Получите обратную связь от студентов / исследователей в школе Аллена.

Я намерен использовать существующие модели для извлечения данных. Например, предоставлено публично See et al. (2017). Набор данных, используемый ими, представляет собой модифицированный набор данных CNN / Daily Mail [Hermann et al. (2015), см. И др. (2017)] - сборник статей и резюме.

Сложные цели

  1. Изучите и реализуйте сводные визуализации с перекрестными примерами, как описано в разделе Куда?
  2. Выпустите бета-версию плагина TensorBoard на github и получите отзывы там.

Процитированные работы