Сходство документов на основе аспектов для исследовательских работ

Сходство документов на основе аспектов для исследовательских работ
Традиционные меры схожести документов обеспечивают грубое различие между похожими и несходными документами… arxiv.org

Потребность в сходстве на основе аспектов

Системы рекомендаций помогают людям находить более актуальные товары. Один из вариантов использования - помочь исследователям найти документы, подходящие для их работы. Один из способов улучшить такие модели - использовать отзывы пользователей для обновления модели. Но в случаях, когда обратная связь с пользователями скудна или недоступна, используются подходы, основанные на содержании, и соответствующие меры схожести документов. Как правило, рекомендательная система рекомендует документ в зависимости от того, похож ли он на исходный документ или нет. Эта оценка сходства не учитывает многие аспекты, которые могут сделать два документа похожими. Можно даже утверждать, что сходство - это плохо определенное понятие, если только нельзя сказать, к каким аспектам сходство относится. В научных статьях сходство часто связано с несколькими аспектами представленного исследования, такими как методы, результаты и т. Д. Используя это, можно получить конкретные индивидуальные рекомендации.

Эксперименты

Заголовки разделов из цитат используются как метки для пар документов. Разделы определяют аспекты сходства. Модель Transformer с заголовками и рефератами в качестве входных данных используется для классификации.

Наборы данных

Аннотированные людьми данные для рекомендаций по исследовательским работам являются дорогостоящими и обычно ограничиваются небольшими объемами. Чтобы смягчить проблему нехватки данных, исследователи полагаются на цитаты как на основную истину. Если между двумя статьями существует ссылка, они считаются похожими. Чтобы сделать подобие аспектным, они переносят идею на проблему многокомпонентной классификации. Как основная истина, заголовок раздела, в котором цитата из статьи A (исходная) до B (цель) встречается как класс метки. Классификация является многоклассовой из-за нескольких заголовков разделов и нескольких этикеток, поскольку в бумаге A можно указать B в нескольких разделах.

Принятые наборы данных

Предварительная обработка данных

Заголовки разделов нормализованы (строчные буквы, только буквы, от единственного к множественному), а объединенные разделы делятся на несколько (Заключение и От будущей работы до заключения; Будущая работа). API-интерфейсы DBLP и Semantic Scholar запрашиваются для сопоставления цитирования и поиска недостающей информации из статей. Недействительные и дублирующиеся статьи удаляются. Наборы данных делятся на 10 классов в зависимости от количества выборок. Первые девять составляют самые популярные названия разделов, а десятые группы - остальные. Полученное в результате распределение по классам несбалансированное, но оно отражает истинную природу корпусов.

Отрицательная выборка

В дополнение к 10 положительным классам был представлен новый класс с именем None, который работает как отрицательный аналог для положительных образцов в той же пропорции. Пары документов Нет выбираются случайным образом и не похожи друг на друга. Случайная пара статей является отрицательной выборкой, когда статьи не существуют как положительная пара, не цитируются вместе, не имеют общих авторов и не были опубликованы в одном месте. Эти образцы позволяют модели различать похожие и разнородные документы.

Системы

В статье основное внимание уделяется классификации пар последовательностей с моделями, основанными на архитектуре трансформатора. Он исследует шесть вариантов трансформатора и дополнительную базу для сравнения. Заголовки и аннотации исследовательских работ используются в качестве входных данных для модели, посредством чего [SEP] разделяет исходную и целевую статьи.

В качестве основы использовался двунаправленный LSTM. Использовался токенизатор SpaCy и векторы слов из fastText. Словарные векторы были предварительно обучены на отрывках из Антологии ACL или наборов данных CORD-19.

Используемые архитектуры трансформаторов:

БЕРТ
Ковид-БЕРТ
SciBERT
RoBERTa
XLNet
ЭЛЕКТРА

Гиперпараметры и реализация

LSTM

10 эпох
размер партии b = 8
скорость обучения = 1 ^ (- 5)
2 слоя LSTM со скрытым размером 100, внимание
выпадение с вероятностью d = 0,1
Ванильный PyTorch

Технологии на основе трансформатора

4 тренировочные эпохи
скорость обучения = 2 ^ (- 5)
размер партии b = 8
Адам Оптимизатор

Оценка проводилась путем стратифицированной k-кратной перекрестной проверки с k = 4. Исходный код и наборы данных общедоступны здесь.

Полученные результаты

С учетом общих оценок SciBERT - лучший метод. Все трансформеры превосходят базовый уровень LSTM по всем показателям, кроме микроточности в ACL Anthology. Разрыв между макро- и микро-средними результатами объясняется расхождениями между классами этикеток.

Оценка класса метки

Нет имеет наивысший балл F1 с большим отрывом. Другой показывает второй лучший показатель F1, который в сценарии схожей-несходной классификации может быть интерпретирован как класс, противоположный метке Нет. Остальные положительные метки дают низкие оценки, но также и меньшее количество образцов. Меньшее количество выборок не обязательно коррелирует с низкой точностью. Несоответствие в количестве образцов и трудности с обнаружением скрытой информации по аспектам способствуют снижению точности некоторых этикеток.

Мы также замечаем, что оценки F1 уменьшаются для обоих наборов данных по мере увеличения количества меток. Это связано с уменьшением отзыва. Чем больше этикеток, тем выше точность.

Качественная оценка

Прогнозы SciBERT были качественно оценены в ACL Anthology. Для каждого примера SciBERT предсказывает, цитирует ли исходное сообщение целевую статью и в каком разделе должна быть ссылка. Затем прогнозы вручную проверяются на их правильность.

Качественная оценка не противоречит количественным выводам. SciBERT различает документы на более высоком уровне и классифицирует их схожесть. Прогнозы на основе аспектов позволяют оценить, как две статьи связаны друг с другом на семантическом уровне.

SciBERT превосходит все другие методы в попарной классификации документов. В случае экспериментов в статье перенос универсального языка в конкретную область снизил производительность. Возможное объяснение - узкий словарь в наборах данных ACL Anthology и CORD-19. Основная цель исследования в этой статье состояла в том, чтобы изучить методы, которые могут включать аспектную информацию в традиционную классификацию сходных-несходных. В этом отношении результаты были признаны многообещающими.

Сходство документов на основе аспектов для исследовательских работ - прочтите статью