НОВОСТИ ПРОДУКЦИИ

Поиск упоминаний экспериментальных методов и наборов данных из полнотекстовых статей в мета-формате

Автор Ана-Мария Истрате

Конечная цель Мета - создать живую, связанную и управляемую карту биомедицинских знаний, которая упростит для исследователей понимание и изучение науки в контексте. Чтобы обеспечить всестороннее представление результатов исследований, помимо журнальных статей и препринтов, команда Meta разработала методы интеллектуального анализа текста для извлечения упоминаний наборов данных, экспериментальных методов, ключевых исследовательских ресурсов (RRID) и клинических испытаний из полного текста статьи, если таковой имеется. . Эти упоминания теперь отображаются на посадочном модуле для бумаги, обогащая информацию о бумаге и давая нашим пользователям возможность быстро получить информацию.

Здесь мы сосредоточимся на алгоритме машинного обучения, который мы создали для извлечения упоминаний о наборах данных и экспериментальных методах из полнотекстовых статей. Это первая попытка Meta использовать интеллектуальный анализ текста, чтобы раскрыть знания внутри полнотекстового корпуса, который у нас есть, и, насколько нам известно, одна из первых попыток использования машинного обучения (ML) для добычи экспериментальных методов и наборы данных из научных биомедицинских журналов и репозиториев препринтов.

Почему важны упоминания о наборах данных и методах?

Экспериментальные методы и наборы данных - два основных компонента исследовательской работы. Для пользователей Meta знание того, какие методы и наборы данных упоминаются в документе, может помочь им быстро оценить, актуальна ли эта статья и стоит ли ее читать. Более того, наличие этих ресурсов с первого взгляда может сигнализировать о том, насколько легко будет воспроизвести результаты статьи. Метод упоминает исследователей-подсказок к статьям, содержащим новые методологии, которые они могли бы адаптировать к своим собственным исследованиям, тогда как упоминания в наборе данных могут помочь им найти существующие данные для разработки или проверки своих гипотез.

Помимо более быстрого предоставления релевантной информации пользователям Meta, подключение экспериментальных методов и наборов данных к биомедицинским документам поддерживает цель Meta по созданию связанной карты биомедицинских знаний. Одним из применений этой возможности может быть поиск документов, в которых упоминается конкретный метод (например, RNA-seq, ELISA или трансфекция) или набор данных, полученных из соответствующей ткани, органа или заболевания.

В качестве примера рассмотрим следующие две статьи, связанные с COVID:

В обоих документах упоминается набор данных MN908947.1, который является записью в базе данных GenBank, соответствующей первой полной последовательности генома SARS-CoV-2. Наша модель машинного обучения извлекает его из этих двух статей, а также из многих других, которые теперь связаны в базовом графе знаний через этот набор данных. Получив все документы, которые использовали этот набор данных в своих экспериментах, мы можем упростить для исследователей сравнение результатов, методологий или результатов связанных статей, имеющих общий знаменатель данных.

Так почему же литература о текстовых исследованиях?

Уже существуют базы данных, объединяющие ссылки между журнальными статьями и соответствующими результатами исследований, такими как наборы данных, программное обеспечение или протоколы. Фактически, мы получаем контент из некоторых из этих репозиториев и делаем его доступным в Meta. Но этот процесс сложен, потому что информация должна поступать из нескольких источников в разных форматах, некоторые из которых могут измениться в будущем. Другой проблемой является отсутствие стандартизированных процессов, с помощью которых издатели или исследователи упоминают эти ресурсы в статьях (и медленное внедрение в тех случаях, когда стандарты были разработаны).

К счастью, у Meta есть доступ к обширному корпусу полнотекстовых журнальных статей, предоставленных нам широкой группой издателей. Мы также получаем полнотекстовый контент из PMC-OA, который представляет собой открытый сборник статей из PubMed Central. Это позволяет нам сразу перейти к источнику и напрямую найти в бумаге интересующие ресурсы.

Извлечение наборов данных и упоминаний экспериментальных методов из научной литературы с помощью машинного обучения

Для поиска полнотекстового корпуса научной литературы мы используем комбинацию алгоритмов машинного обучения и подходов, основанных на правилах, в зависимости от задачи. Например, мы можем добывать ключевые ресурсы (например, антитела и клеточные линии) и клинические испытания путем поиска уникальных идентификаторов, таких как идентификаторы исследовательских ресурсов (RRID) и номера национальных клинических испытаний (NCT), предоставленные конкретными реестрами, которые поддерживают признанные стандарты. . Однако, поскольку нет четких правил относительно того, как экспериментальные методы и наборы данных упоминаются в литературе, мы построили модель машинного обучения, обученную распознавать упоминания этих типов контента.

Что такое экспериментальные методы и наборы данных?

Решить, что именно составляет набор данных или экспериментальный метод, не так просто, как может показаться. Мы тесно сотрудничали с нашей собственной командой экспертов в предметной области и пришли к следующим определениям:

Набор данных - это набор данных, которые были измерены, собраны и / или проанализированы в рамках исследовательского исследования. Наборы данных могут быть упомянуты по идентификаторам доступа, связанным с базой данных, например GEO, GenBank или BioProject; DOI, связанные с хранилищем, например Dryad, Zenodo или Figshare; или ресурсы, размещенные на внешних URL-адресах, например академические учреждения или организации. На данный момент модель машинного обучения распознает наборы данных, упомянутые в форме идентификаторов доступа, и мы расширяем ее возможности для распознавания наборов данных с помощью цифровых идентификаторов объектов (DOI).

По сравнению с наборами данных определение метода менее однозначно. Метод - это метод или подход, используемый в научных исследованиях. В зависимости от используемой онтологии то, что составляет метод, может варьироваться в разных сообществах. Мы тесно сотрудничали с нашей командой биоконтроля, чтобы придумать собственное определение. Более подробное описание того, что мы включаем, можно найти в статье нашего Справочного центра Определение типов контента, данное Мета.

Обзор подхода к машинному обучению

Чтобы распознавать упоминания наборов данных и экспериментальных методов, модель машинного обучения обучается на помеченных данных. Для этого мы создали собственный набор данных, извлекая аннотации экспериментальных методов и наборов данных из журнальных статей в корпусе Europe PMC и сопоставив их с предложениями, связанными с каждой статьей.

После очистки обучающих данных (например, убедившись, что аннотации соответствуют нашим собственным определениям методов и наборов данных), мы построили модель машинного обучения, которая смогла научиться распознавать упоминания методов и наборов данных, глядя на контекст, окружающий конкретный термин. Мы оценили модель на удерживаемых наборах данных (наборах данных, которые модель не видела во время обучения) по стандартизированным метрикам, таким как точность, отзыв и оценка F1, а также качественной обратной связи от нашей команды биоконтроля, и повторили ее. Когда мы достигли комфортного уровня производительности (см. Раздел «Оценка» ниже), мы применили модель к новому полнотекстовому контенту, чтобы извлечь упоминания об экспериментальных методах и наборах данных из новых статей.

По мере того, как мы расширяем возможности интеллектуального анализа наборов данных, нам также предстоит увлекательная работа с экспериментальными методами, включая разрешение сущностей и отображение онтологий для определения иерархических отношений между набором.

Модель BioBERT для распознавания именованных сущностей

В этом разделе мы углубимся в технические детали модели машинного обучения.

Архитектура модели

Наш алгоритм интеллектуального анализа текста представляет собой модель распознавания именованных сущностей (NER), основанную на архитектуре преобразователя BERT [1]. Это современная модель представления языка, используемая для различных задач обработки естественного языка, таких как распознавание именованных сущностей, языковой вывод или ответы на вопросы. Мы использовали вариант BERT BioBERT [2], поскольку он предварительно обучен на крупномасштабных биомедицинских корпусах из рефератов PubMed и полнотекстовых статей с открытым доступом и лучше подходит для фиксации контекстных отношений между словами в предложениях в нашем собственном корпусе.

Начиная с данного предложения, мы сначала разбиваем его на токены с помощью токенизатора BioBERT. Затем мы пропускаем токены через модуль преобразователя BioBERT и отправляем выходные данные скрытых состояний через линейный слой, который служит для классификации токенов на один из следующих типов токенов BIO-схемы:

  • B-DAT, если токен является частью набора данных
  • B-MET / I-MET, если это часть экспериментального метода
  • О иначе

На последнем этапе мы снова объединяем токены в слова. Мы поэкспериментировали с различными способами получения тега слова из его соответствующих токенов и решили присвоить ему тег его первого токена. Наконец, если в одном упоминании есть несколько слов (например, «проточная цитометрия»), мы объединяем их вместе.

Данные обучения

В обучающем наборе данных было 279 876 предложений из ~ 36 000 статей о биомедицинских исследованиях, содержащих 5250 упоминаний наборов данных (в качестве идентификаторов номеров доступа) и 78 318 упоминаний методов. Мы создали этот набор данных, сопоставив аннотации из журнальных статей в корпусе Europe PMC с нашим собственным корпусом полнотекстового контента, полученного непосредственно от издателей.

Оценка

Мы оценили модель в соответствии со стандартными количественными показателями для задачи NER, такими как точность, отзыв и оценка F1. Метрики обученной модели:

Мы также прошли несколько итераций с нашей внутренней командой биоконтроля для ручной качественной оценки результатов модели машинного обучения.

Открытый исходный код

Одним из основных столпов Meta является поддержка открытой науки. Вот почему мы открыли исходный код обученной модели, а также код, необходимый для ее использования для прогнозов на Github. Репозиторий кода содержит инструкции о том, как каждый может использовать обученную модель для прогнозов в своих собственных документах. Мы будем поддерживать репозиторий и обновлять его по мере улучшения наших моделей.

Узнавайте о новых упоминаниях на Meta.org!

Изучая литературу для упоминания наборов данных и экспериментальных методов, мы быстрее доставляем основную информацию о статье нашим пользователям. Прямо сейчас около 11% бумажных лендеров в Meta упоминаются, и это число будет только расти по мере того, как мы расширяем наш полнотекстовый корпус и конвейер обработки. Мы надеемся, что вы попробуете эту функцию и получите от нее удовольствие! Эта функция все еще находится в стадии бета-тестирования, и мы постоянно работаем над улучшением наших моделей. Так что, если у вас есть какие-либо отзывы о нас, мы будем рады их услышать!

Об авторе: Ана-Мария Истрате - научный сотрудник Инициативы Чана Цукерберга и выпускница Стэнфордского университета (степень бакалавра прикладной математики '17, магистр компьютерных наук '19), работает над рекомендациями, ранжированием и алгоритмами интеллектуального анализа текста для Мета.

Этот проект был действительно увлекательным коллективным усилием! Особая благодарность всем, кто участвовал в этом проекте, особенно Микаэле Торкар за ее помощь в создании определений наборов данных / методов и многочисленным итерациям по оценке результатов алгоритма, Андрею Толопко за работу над инженерной реализацией обучения модели машинного обучения. и конвейеры прогнозирования, а также Дженнифер Лин за ее руководство и поддержку на протяжении всего проекта, а также ее глубокие знания обо всем, что связано с биомедицинской литературой!

использованная литература

  1. Девлин, Джейкоб, и другие. «Берт: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». Препринт arXiv arXiv: 1810.04805 (2018).
  2. Ли, Джинхёк, и другие. « BioBERT: предварительно обученная модель представления биомедицинского языка для биомедицинского анализа текста Биоинформатика 36.4 (2020): 1234–1240.

Как проект Инициативы Чана Цукерберга, Мета бесплатна и доступна исследователям во всем мире.