Обнаружение стойки с использованием сетей памяти

Как автоматически определять позицию в фрагменте текста и извлекать соответствующую информацию, идентифицированную в поддержку обнаруженной позиции? Метод, опубликованный в Автоматическом обнаружении стояния с использованием сквозных сетей памяти в NAACL, 2018.

Авторы: Митра Мохтарами, Рами Бали, Джеймс Гласс, Преслав Наков, Луис Маркес, Алессандро Москитти

Проблема под рукой?

Чтобы определить относительную перспективу текста по отношению к заданному утверждению по таким категориям, как согласен, не согласен, обсудить и несвязанный.

Далее для определения подтверждающих доказательств для присвоенной категории.

Требование: Роберт Плант разорвал контракт на воссоединение Led Zeppelin на 800 миллионов долларов.

согласен
Роберт Плант из Led Zeppelin отказался от 500 миллионов фунтов стерлингов на реформирование супергруппы…

не согласен
Публицист Роберта Планта назвал "ерундой" сообщение Daily Mirror о том, что он отверг воссоединение Led Zeppelin за 500 млн фунтов стерлингов ...

обсудить
Сообщается, что Роберт Плант сорвал сделку по воссоединению Led Zeppelin на 800 миллионов долларов ...

не связаны
Virgin Galactic Ричарда Брэнсона собирается сегодня запустить SpaceShipTwo…

Вход и выход

Вход

Заявление (текстовое заявление)
Доказательства (набор текстов), представляющие факты (которые тоже могут не иметь отношения!) Для данного утверждения

Вывод

Позиция документа по заявленному иску
Топ k утверждений в документе, подтверждающих выбранную позицию
Топ k фрагментов в документе, поддерживающих выбранную позицию

Что уже существует?

Проверка фактов как многоэтапный процесс, начиная с определения соответствующих утверждений (система проверки фактов) и заканчивая оценкой правдивости этих утверждений (предсказание правдивости).
Обнаружение стойки в твитах против заданной цели, при этом набор целей по задаче фиксирован.
Обнаружение позиции относительно заявления, в отличие от предыдущей задачи, определяет позицию путем сопоставления внешних или внутренних доказательств.

Текущая работа специально разработана с учетом последнего определения определения стойки.

Зачем искать новый метод?

Существующие модели сильно зависят от функций.
В существующих работах не обсуждается идентификация элементарных подразделений, поддерживающих установленную позицию для данного утверждения.

Краткий обзор

В документе адаптируется настройка сети памяти для вывода долгосрочных ассоциаций в разных абзацах, что вместе помогает прийти к решению, поддерживают ли данные доказательства, явно не согласны, просто обсуждают или полностью не связаны с утверждением.

Что они предлагают?

Как насчет настройки на основе сети памяти с расширением «компонента вывода» на основе сопоставления для извлечения соответствующих фрагментов для входных утверждений.

Давайте погрузимся в суть!

Посмотрим на архитектуру:

Компонент представления входных данных: принимает документ с доказательствами и претензию в качестве входных данных и независимо обрабатывает их через конвейеры LSTM и CNN. Обратите внимание, что цепочки доказательств и претензий не связаны, т. е. имеют разные веса.

LSTM: для обработки более длинных контекстов.

CNN: для выделения локального контекста. Однако конвейер CNN отличается от обычного блока conv-maxpool. Вместо этого он использует слои maxout для определения значимых n-граммов.

Компонент вывода: для определения уровня соответствия (сходства) между свидетельством и утверждением путем последовательного использования трех наборов вычислений подобия.

Сходство1: между векторами доказательств и претензий TfIdf.

Сходство2: между LSTM-представлением доказательства и утверждения.

Сходство3: Между представлением свидетельств и утверждений CNN.

Компонент обобщения памяти: для обновления памяти на разных этапах с последующим использованием их в компоненте вывода.

Компонент представления вывода: для создания вектора вывода, представляющего всю информацию, собранную в предыдущих конвейерах.

Компонент ответа и вывода: принимает на входе выходной вектор вместе с входными представлениями утверждения и генерирует окончательный вывод, то есть позицию доказательства с использованием слоя MLP.

Целевая функция:

Категориальная кросс-энтропийная потеря (это задача классификации)

Какой набор данных они используют?

Набор данных предоставлен Fake News Challenge.
Содержит около 75 тыс. Пар документов и претензий.

Какие цифры они улучшают?

Точность
Макро-F1
Взвешенная точность

** Все рисунки и уравнения были взяты непосредственно из статьи или адаптированы в соответствии с моим пониманием.