Почему внимание в глубоком обучении привлекает так много… ммм, внимания?

Что такое механизм внимания?

Посмотрите на изображение ниже и ответьте мне, какого цвета футбольный мяч? Кроме того, кто из футболистов из Джорджтауна, парни в белом, носит капитанскую повязку?

Когда вы пытались найти ответы на вышеперечисленные вопросы, делал ли ваш разум странную вещь, когда он сосредоточивался только на части изображения?

Кроме того, когда вы читали предложение выше, не начал ли ваш разум ассоциировать разные слова вместе, временами игнорируя определенные фразы, чтобы упростить смысл?

Что случилось? Что ж, это легко объяснить. Вы «сосредотачивались» на меньшей части всего, потому что знали, что остальная часть изображения / предложения бесполезна для вас в тот конкретный момент. Поэтому, когда вы пытались определить цвет футбольного мяча, ваш разум показывал вам футбольный мяч в HD, но остальная часть изображения была почти размытой. Точно так же, когда вы читали вопрос, как только вы поняли, что парни в белом были игроками Джорджтауна, вы могли бы размыть эту часть предложения, чтобы упростить его значение.

В попытке заимствовать вдохновение из того, как работает человеческий разум, исследователи в области глубокого обучения попытались воспроизвести это поведение, используя так называемый «механизм внимания». Проще говоря, механизм внимания - это просто способ сосредоточиться только на меньшей части полного ввода, игнорируя остальное.

Как это работает?

Внимание можно просто представить в виде трехступенчатого механизма. Поскольку мы говорим о внимании в целом, я не буду вдаваться в подробности того, как это адаптируется к CV или NLP, что на самом деле очень просто.

  1. Создайте распределение вероятностей, которое оценивает важность различных входных элементов. Эти входные представления могут быть словами, пикселями, векторами и т. Д. Создание этих распределений вероятностей на самом деле является обучаемой задачей.
  2. Масштабируйте исходные входные данные, используя это распределение вероятностей, чтобы значения, заслуживающие большего внимания, усиливались, а другие размывались. Вроде как размыть все остальное, что не требует внимания.
  3. Теперь используйте эти недавно отмасштабированные входные данные и выполните дальнейшую обработку, чтобы получить целенаправленные выходы / результаты.

Внимание полностью изменило игру НЛП

Механизм внимания был принят в НЛП в течение относительно долгого времени, он используется с несколькими моделями рекуррентной обработки, такими как RNN, LSTM и т. Д. Как мы заметили ранее, фокусируясь только на коротком подмножестве слов за раз, механизм внимания может помочь эти модели лучше понимают язык. Но даже после всего этого внимание использовалось только как дополнение к основной модели, а РНС по-прежнему правили миром НЛП.

Однако все изменилось, когда около 3 лет назад была выпущена новая статья под названием «Внимание - это все, что вам нужно». Как следует из названия, эта модельная архитектура, широко известная как Transformer, смогла заменить повторяющиеся блоки обработки исключительно сетями внимания. Он не только легко превзошел RNN, но и модели на основе Transformer по-прежнему демонстрируют удивительный прогресс и являются нынешними лидерами различных соревнований и задач NLP.

Означает ли внимание объяснение?

В последние несколько лет возникла огромная шумиха вокруг того, что известно как объяснимый ИИ, или сокращенно XAI. Поскольку ИИ вторгается в такие области, как медицинская диагностика и автономное вождение, люди теперь начинают опасаться, что BlackBox принимает решения о жизни и смерти. Чтобы мы могли доверять решениям, принимаемым ИИ, были проведены новые исследования в направлении создания моделей, которые также могут объяснить эти решения.

В течение нескольких лет считалось, что механизм внимания может дать какое-то объяснение предсказаний, предоставляемых моделью. Я имею в виду, что имеет смысл думать, что часть входных данных, на которой фокусируется модель, должна рассказать нам что-то о логике ее прогнозов. Однако недавно проведенное более глубокое исследование показало, что внимание действительно не связано с объяснимостью, и различные распределения внимания могут дать аналогичные результаты. Чтобы сделать это открытие еще более интересным, недавно другая статья выступила против этого утверждения, заявив, что «объяснимость» на самом деле субъективна, и, таким образом, заявив, что внимание не дает никакого объяснения, является неверно.

Однако, по моему мнению, по крайней мере на некотором интуитивном уровне исследование результатов ветвей внимания сети должно дать понимание того, как работает модель, и, следовательно, должно иметь некоторую связь с объяснимостью.

Что дальше?

В то время как внимание всегда использовалось как побочный механизм для повышения производительности архитектур глубокого обучения, недавний успех Transformers в NLP предполагает, что одного только внимания достаточно, чтобы делать удивительные вещи, недоступные другим сетям. Кроме того, будет интересно увидеть, как область объяснимого ИИ использует механизм внимания.

Этот блог является частью попытки создать упрощенные вводные в области машинного обучения. Следите за полной серией здесь



Или просто прочтите следующий блог в серии



использованная литература

[1] Рамачандран, Праджит и др. «Автономное самовнимание в моделях зрения». Препринт arXiv arXiv: 1906.05909 (2019).
[2] Guan, Qingji, et al. «Ставьте диагноз как рентгенолог: сверточная нейронная сеть, управляемая вниманием, для классификации заболеваний грудной клетки». Препринт arXiv arXiv: 1801.09927 (2018).
[3] Vaswani, Ashish, et al. «Внимание - это все, что вам нужно». Достижения в области нейронных систем обработки информации. 2017.
[4] Джайн, Сартак и Байрон К. Уоллес. «Внимание - это не объяснение». Труды конференции 2019 года Североамериканского отделения Ассоциации компьютерной лингвистики: технологии человеческого языка, том 1 (длинные и короткие статьи). 2019.
[5] Вигрефф, Сара и Юваль Пинтер. «Внимание - это не объяснение». Материалы конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP). 2019 г.