Резюме исследования

В этом блоге я попытался резюмировать статью ACL CRIM на SemEval-2018, Задача 9: Гибридный подход к Hypernym Discovery в соответствии с моим пониманием. Не стесняйтесь комментировать то же самое!

Заявление о проблеме

Основная цель конкурса заключалась в том, чтобы предсказать гиперонимы для заданного слова запроса (q). Соревнование было разделено на 2 основных задания по 5 подзадач. Автор решил работать над 3 подзадачами: 1A, 2A и 2B. Где -

  1. Универсальное Hypernym Discovery:
  • Задача 1A - использованный набор данных состоял из 3-битных слов UMBC corpus (UMBC WebBase corpus - это набор данных высококачественных абзацев на английском языке, содержащий более трех миллиардов слов, полученных из февральского проекта Stanford WebBase. 2007 веб-сканирование)
  • В наборе данных было 10000 пар (термин, гипероним).

2. Обнаружение гипернимов, зависящих от домена:

  • Задача 2A - использованный набор данных состоял из 130 миллионов слов, извлеченных из корпуса PubMed.
  • Задача 2B. Использовался набор данных из 100 миллионов слов, включая обзоры Amazon и музыку. биографии и страницы Википедии о музыке.
  • В наборе данных было 3000 пар (термин, гипероним) для обеих задач.

Автоматическое извлечение гиперонимов является активной областью исследований уже около двух десятилетий. Они отлично работают при применении к последующим задачам, таким как ответы на вопросы, расширение запроса и т. Д. В этой статье авторы придумали гибридный алгоритм, который будет рассматривать как неконтролируемые, так и контролируемые методы решения этой проблемы. .

Распознавание на основе шаблонов без учителя

  1. Шаблоны Херста. Шаблоны Херста - это лексико-синтаксические шаблоны, определенные вручную (впервые были созданы Марти Херстом). Ниже рис. покажите некоторые из этих шаблонов. Здесь X - гипоним, а Y - гипероним.

Эти шаблоны можно использовать просто для поиска на основе регулярных выражений со слотами X и Y.

Чтобы решить проблему отзыва, авторы использовали 3 метода, каждый из которых упомянут в рамке ниже:

Таким образом, для словосочетаний, состоящих из нескольких слов, таких как «холодное мороженое», «мороженое» станет гипернимом (поскольку это заглавное слово), тогда как «холодное мороженое» станет гипонимом. Ниже рис. показывает полную схему того, как они реализовали полный конвейер.

Здесь q - слово запроса, Q - расширенный набор запросов (набор гипонимов), а H (q) - набор гиперонимов.

Обучение проекции с учителем

Приведенные выше уравнения - это, по сути, суть тренировки всего под контролем. Здесь Phi - матрица проекции, e (q) - вложение запроса, P содержит все i проекции запроса q, затем мы находим косинусное сходство между каждой из проекций и вложением гиперонимной основной истины. Таким образом, s становится вектором-столбцом, в котором каждая ячейка имеет одинаковую оценку ч / б 0–1 для каждого из прогнозов. Позже вектор подобия передается в логит для классификации, вне зависимости от того, был ли h гипернимом или нет. Поскольку это проблема двоичной классификации, они использовали BCE (двоичную кросс-энтропию) (H) в качестве функции потерь. Интуитивно, если числа в матрице s близки к 1, а истинное значение было 0 (не гипернимом), то во время обратного распространения модель с попыткой уменьшить числа подобия, в результате чего лучше изучить Phi как часть цепного правила.

Увеличение объема данных

Дополнение данных стало в наши дни практикой почти во всех проблемах машинного обучения. Эта модель позволяет модели увидеть большее разнообразие данных, благодаря чему в конечном итоге она лучше усваивает и обобщает невидимые данные. Автор использовал нижеупомянутую эвристику для целей дополнения -

  • Учитывая положительный образец (q, h), (q ’, h) является возможным кандидатом, где q’ - ближайшие соседи q, вычисленные на основе углового расстояния вектора внедрения. Это было строго основано на гипотезе о том, что Ближайшие соседи часто являются сопутствующими гипонимами. Как вы можете видеть на рис. что новая выборка, добавленная к обучающим данным, происходит путем нахождения ко-гипонима слова запроса. Кроме того, здесь использовалась функция векторизации skip-gram word2vec модель, которая была обучена на корпусе, предоставленном как часть задачи -

  • Запрос (q) и Hypernym задают H (q), вычисляют (K = 2) ближайших соседей всех кандидатов в H (q). Если к соседу в H (q) делят не менее 2 человек, добавьте это к H (q). Значение K было определено эмпирически. Как вы можете видеть на рис. что новая выборка, добавленная к обучающим данным, происходит путем нахождения общего гиперонима среди соседей существующих гиперонимов для запроса q.

Hybrid Hypernym Discovery

Выбранная автором довольно простая стратегия слияния. Они отбирают 100 лучших кандидатов по каждому из вышеупомянутых методов и нормализуют их оценки. Позже они расположили этот нормализованный список в порядке убывания и отобрали 15 лучших образцов. В частности, было выбрано 15 образцов из числа лучших, потому что этого требовал конкурс. См. Рис. Ниже. -

Результаты и оценка

В соревновании MAP (средняя средняя точность), MRR (средний взаимный рейтинг) и P @ 1 (точность для top-1) использовались для проверки релевантности в стратегии ранжирования. Автор оценил все три подхода, т. Е. без учителя, под наблюдением и гибрид для обоих прогонов (1 - с дополнением) и (2 - с о увеличение). Обратитесь к таблице ниже для получения точных оценочных номеров -

Из приведенной выше таблицы результатов видно, что баллы 1A довольно низкие по сравнению с 2A и 2B, что отчасти оправдано, потому что 1A касается гипернимального извлечения открытого домена, что приводит к высоким FP и FN, тогда как 2A / B являются из меньших доменов, что приводит к большей точности.

Возможное предложение

Я нашел документ действительно всеобъемлющим и очень хорошо написанным. У меня было только одно предложение - Попробуйте выбирать высококачественные отрицательные образцы, а не делать это случайным образом, поскольку это сделает модель более устойчивой к сложным примерам.

Ниже рис. показывает некоторые важные термины, которые следует знать для понимания статьи -

Так что да, это все для этого блога. У меня есть пошаговое руководство по многоязычному видео с субтитрами. Если вам нравится использовать видеоконтент вместо текстового (как и у меня: D), обязательно ознакомьтесь с ним -

Вы также можете ознакомиться с пояснениями к другим исследовательским работам, которые я написал:

Графический метод подобия текстов

10 популярных алгоритмов извлечения ключевых слов в НЛП

BERT-QE: контекстное расширение запроса

За гранью точности: поведенческое тестирование моделей НЛП с использованием контрольного списка

BERT для экстрактивного обобщения текста

Не стесняйтесь читать всю статью и говорить «Привет» авторам и ценить их вклад.

Название статьи: CRIM на SemEval-2018, задача 9: гибридный подход к Hypernym Discovery

Ссылка на документ: https://www.aclweb.org/anthology/S18-1116/

Авторы: Габриэль Бернье-Колборн, Кэролайн Баррьер

Кроме того, если вам понравилось читать эту статью, вы можете выбрать купить мне чай на https://www.buymeacoffee.com/TechvizCoffee - потому что я не собственно кофе пью :) Большое спасибо! Это совершенно необязательно и добровольно :)

Спасибо за ваше драгоценное время. :)

Первоначально опубликовано на https://prakhartechviz.blogspot.com.