Кто есть кто и что есть что: достижения в области распознавания именных биомедицинских организаций (BioNER)

Мысли и теория

Кто есть кто и что есть что: достижения в области распознавания именных биомедицинских организаций (BioNER)

Обзор исследований по распознаванию именованных сущностей, помогающих решать проблемы, связанные с биомедицинской областью.

Вступление

В Slimmer AI мы изучаем NER в биомедицинской сфере (BioNER). Это исследование важно, поскольку есть несколько проблем, которые не всегда существуют в других областях, в том числе:

Данные часто недоступны в свободном доступе, особенно в клинических случаях.
Аннотация данных требует экспертных знаний.
Пространство биомедицинских концепций огромно, поэтому маловероятно, что системы NER выйдут за рамки конкретных условий, для которых они были аннотированы.

Эта статья представляет собой обзор работы и исследований по распознаванию именованных сущностей, которые помогают решать проблемы, связанные с биомедицинской областью, такие как наборы биомедицинских данных и методы их решения. Я также расскажу о важности трансферного обучения и многозадачного обучения в этой области. И я быстро коснусь некоторых альтернативных методов для BioNER по сравнению с популярными моделями, основанными на глубоком обучении, такими как BERT.

Краткий обзор развития NER

Распознавание именованных сущностей (NER) является одним из строительных блоков НЛП и используется во многих последующих задачах, таких как ответы на вопросы, моделирование тем и поиск информации. [1] Задача включает в себя пометку объектов в неструктурированном тексте с использованием таких категорий, как человек, организация, местоположение и т. д.

Ранние системы NER использовали созданные вручную правила, лексиконы, орфографические функции и онтологии. [1,2] Подобные модели обладают некоторыми преимуществами, например тем, что они не требуют аннотированных обучающих данных. Однако у этих моделей есть несколько недостатков. Например, лексиконы должны быть исчерпывающими, а соответствующие словари должны активно обновляться экспертами в предметной области.

По мере развития этой области люди начали использовать машинное обучение, но у этого метода были и свои недостатки, такие как трудоемкая разработка функций. Совсем недавно были введены сквозные методы глубокого обучения, которые устранили необходимость ручного проектирования функций для каждого конкретного набора данных. Эти сети, определяющие особенности, превосходят системы, построенные на основе функциональных возможностей, несмотря на отсутствие специфических для предметной области правил и знаний. [1]

Шум и смещение набора данных

Многие аннотированные наборы данных были введены в биомедицинскую область с такими категориями объектов, как линия клеток, химическое вещество, болезнь, ген, белок и виды. Большинство из них используют в качестве источника статьи PubMed, аннотированные несколькими экспертами в предметной области. Обзор популярных наборов данных BioNER можно найти в обзоре Flair или этом обзоре на GitHub.

Одна из наиболее заметных проблем с наборами данных NER, которые не ограничиваются биомедицинской областью, заключается в том, что наборы данных несовершенны. Например, большинство - если не все - страдают от несогласия аннотаторов или отсутствия аннотаций.

Ли и др. подчеркнул качество аннотации данных как одну из основных проблем в области NER. [2] Чтобы привести несколько примеров, создатели корпуса MedMentions оценили качество аннотаций, попросив биологов просмотреть аннотации, сделанные профессиональными аннотаторами, и сообщили о согласии на 97,3%. [3] Задача JNLPBA от 2004 г. имела пересмотренную версию в 2019 г., пытаясь исправить недостатки в исходном корпусе. [4,5] Было два раунда аннотаций, где аннотаторы обсуждали несколько разногласий между раундами. В первом раунде согласованность аннотаций составила 79,5%, во втором - 91,4%. Это еще очень далеко от 100%. Wang et al. проанализировали широко распространенный набор данных CoNLL03 NER и смогли выявить ошибки примерно в 5,38% тестовых предложений. [6,7] Они также подчеркивают важность этого, учитывая, что результаты современных тестов уже составляют около 93%.

Выявление ошибок в аннотациях требует глубоких знаний в предметной области и значительных временных затрат. Чтобы справиться с ними по-другому, Wang et al. представил фреймворк CrossWeigh. [6] Их решение простое, но требует значительного времени для выполнения. Идея состоит в том, чтобы обучить несколько моделей, каждая из которых использует разные части данных поезда. Разделения или складки настраиваются таким образом, что набор поездов не содержит каких-либо терминов из соответствующего набора тестов. Неправильные прогнозы агрегируются по всем тестовым наборам, и этот процесс повторяется в течение нескольких итераций (с учетом разных случайных начальных значений для создания складок). Интуиция подсказывает, что если термин систематически ошибочно классифицируется во всех смыслах, аннотация, вероятно, неверна. Затем эти аннотации подавляются за счет уменьшения веса во время тренировки. Наряду с улучшением показателя F1 на 0,2–0,4% они заметили, что их модели становятся более стабильными, учитывая более низкое стандартное отклонение показателя F1 за несколько прогонов.

Как видно из многих задач машинного обучения, наборы данных часто содержат предвзятость. (Био) NER здесь не исключение. Выявление упоминаний сущностей, которые были замечены во время обучения (запоминание), и работа с морфологическими вариациями (обобщение синонимов) обычно не вызывает проблем для больших моделей, таких как (Bio) BERT. [8] Однако Ким и Канг обнаружили, что модели BioNER часто используют ошибки набора данных и не могут быть обобщены на концепции, которые не были замечены во время обучения. [8] Они проанализировали 50 классификационных ошибок в наборе данных BC5CDR и обнаружили, что BioBERT использовала статистические подсказки в 34% этих случаев.

Чтобы объяснить, какими сигналами они злоупотребляют, давайте сначала быстро рассмотрим наиболее часто используемый формат, используемый в наборах данных NER: схему аннотаций внутри-снаружи-начало (IOB). Когда объект состоит из нескольких (под) слов, например, организация Slimmer AI, первое слово Slimmer имеет префикс B- , обозначающий начало объекта, а 'AI' имеет префикс I-, что указывает на то, что слово является частью предыдущая сущность. Слова, не принадлежащие объекту, помечаются знаком O. Этот формат полезен для различения последовательных объектов в тексте.

Ким и Канг обнаружили, что некоторые слова встречаются только с B- в обучающем наборе и поэтому всегда классифицируются как B- в тестовом наборе, что приводит к неверным прогнозам. [8] Чтобы устранить эту предвзятость, они предлагают процедуру устранения предвзятости, основанную на методе произведения предвзятости. [9] В результате модели действительно немного пострадали в плане запоминания, но улучшились в областях синонимов и обобщения понятий. Однако их метод устранения смещения может уменьшить возможность использования действительных шаблонов в сущностях. Примерами таких паттернов являются «___ улица» и «___ болезнь», которые очень актуальны для использования в целях ускорения обобщения концепции. Авторы отмечают это как будущую работу.

Еще одна большая проблема в биомедицинской области заключается в том, что часто бывает трудно получить большие наборы данных, аннотированные экспертами. Если вам все-таки удастся найти такой корпус золотого стандарта, то, как правило, они невелики по размеру. Чтобы решить проблему небольших наборов данных, вы можете использовать трансферное обучение, многозадачное обучение или обучение за несколько шагов.

Передача и обучение за несколько секунд

Использование предварительно обученных моделей и применение методов трансферного обучения в настоящее время является обычной практикой в сообществе НЛП и может значительно повысить производительность при выполнении последующих задач. Применение его к задаче BioNER не является исключением, поскольку несколько моделей, обученных на больших объемах биомедицинских данных, были сделаны с открытым исходным кодом и часто используются. Одна из наиболее известных моделей - это BioBERT, предварительно обученная сначала по корпусам общих доменов, а затем по корпусам биомедицинских доменов, таким как PubMed. [10] Чтобы проиллюстрировать, почему открытый исходный код этих моделей так важен, только последняя часть предварительного обучения в биомедицинской области заняла колоссальные 23 дня с использованием 8 графических процессоров Nvidia V100. Это большие инвестиции для малого и среднего бизнеса. Еще одна модель, которая добилась значительного успеха, - это модель HunFlair, обученная на 23 наборах биомедицинских данных, с большим отрывом превосходящая модели BioNER, такие как SciSpaCy и HUNER. [11,12,13] Доказательств того, что использование предметно-ориентированных моделей вместо ванильного варианта улучшает производительность последующих задач, просто огромно. [8,10,11,14–18]

Модель HunFlair использовала предварительное обучение и набирала 0,80–4,75 процента в баллах F1 для разных классов по сравнению со случайно инициализированным LSTM, в котором использовались вложения, предварительно обученные на общих корпусах. [11] Наблюдаемое увеличение в основном было вызвано более частым отзывом. Их модели и данные обучения доступны на их странице GitHub, и, поскольку они являются частью популярной библиотеки Python Flair, вы можете легко расширить эту модель по своему усмотрению. [19]

Peng et al. представила тест Biomedical Language Understanding Evaluation (BLUE), одним из критериев которого является BioNER, для облегчения исследований по разработке предварительно обученных моделей (для получения дополнительной информации о BLUE посетите их соответствующую страницу GitHub). [16] Они оценили несколько базовых уровней BERT и ELMo и обнаружили, что модель BERT, предварительно обученная на рефератах PubMed и клинических заметках MIMIC-III, дала наилучшие результаты. [20] Их модель, метко названная BlueBERT, превзошла ELMo, BioBERT и другие современные модели по всем наборам данных. Лучшая настройка модели улучшилась в BioBERT на 8,9 F1-балла для одного набора данных и в среднем на 1,8.

Джорджи и Бадер использовали корпуса серебряного стандарта, корпуса, которые, как правило, намного больше, но имеют более низкое качество. [17] Такой корпус можно создать, используя существующие модели NER для аннотирования большого корпуса без меток. Авторы добились снижения ошибки на 11% для нескольких наборов данных, сначала обучаясь на этих корпусах серебряного стандарта, а затем уточняя настройки на корпусе золотого стандарта. Улучшения были особенно значительными для наборов данных с небольшим количеством аннотаций (‹6000).

С предварительным обучением также появляется возможность применять такие методы, как обучение по нескольким кадрам: точная настройка вашей модели с использованием всего нескольких меток. Это очень полезный метод, особенно в тех областях, где аннотированных данных мало. Hofer et al. оценили пять методов работы с такими небольшими наборами данных в медицинской сфере, в которых использовалось только 10 образцов поездов. [21] В качестве основы они использовали модель, основанную на современной модели, настроенной на то время для CoNLL-2003 и OntoNotes 5.0. [7,22] Один из методов улучшения их несложной учебной задачи заключался в предварительном обучении на связанном наборе данных с большим количеством образцов. После тестирования на нескольких наборах данных они улучшили показатель F1 в своих лучших настройках на 4,52% по сравнению с базовым уровнем. Использование набора данных в одном домене явно превосходит использование набора данных из другого домена.

Другая настройка использовала несколько отдельных наборов данных и была предварительно обучена на всех из них, вместе взятых. Интересно, что авторы сообщили об отрицательном влиянии на -1,66% по сравнению с использованием одного набора данных для предварительного обучения. Авторы отмечают, что это могло быть вызвано их стратегией обучения, поскольку они использовали гиперпараметры, оптимизированные для отдельных наборов данных. Они также утверждают, что веса, полученные путем предварительного обучения на первом наборе данных, могли не подходить для второго. В последнем методе, который стоит отметить, использовались вложения слов, специально обученные на биомедицинском тексте в качестве входных данных, по сравнению с использованием ванильных встраиваний GLoVE. [23] Это улучшило их показатель F1 еще на 3,78%. Комбинация всех техник повысила их показатель F1 с 69,30% до 78,87%, что является хорошим улучшением.

Многозадачное обучение

Помимо применения трансферного обучения, еще одним популярным методом является использование многозадачного обучения: обучение не только текущей задаче, но и другим связанным задачам для повышения производительности основной задачи. Концепция, лежащая в основе этого, заключается в том, что похожие задачи или наборы данных имеют семантическое и синтаксическое сходство, что может помочь в обучении более оптимизированной модели для конкретной задачи. Кроме того, это может снизить вероятность переобучения. Популярные задачи, которые нужно включить, - это тегирование меток частей речи (POS), синтаксических составляющих и отношений зависимости. [2,14] Кроме того, данные для этих задач относительно легко получить, поскольку синтаксические характеристики могут быть получены с использованием готовых наборов инструментов, таких как NLTK или Stanford CoreNLP.

Тиан и др. попытались включить синтаксические функции в модель BioBERT, используя сеть памяти «ключ-значение», и увидели, что их производительность увеличилась примерно на 0,2–0,9% F1. [14] Это может показаться не таким уж большим. Однако, учитывая, что некоторые модели в некоторых наборах данных уже работают в диапазоне 90% +, такое увеличение может быть значительным.

Wang et al. рассматривал обучение с использованием нескольких наборов данных с разными типами сущностей как многозадачную задачу. [18] Они обучили разные модели BioNER, итеративно просматривая наборы данных, при этом разделяя некоторые параметры этих моделей. Они превосходят предыдущие современные показатели по 14 из 15 наборов данных с улучшениями в диапазоне от 0,2 до 1,8% по шкале F1.

Хан и др. применили аналогичный подход, но они рассматривали свою модель как единую модель с общими нижними слоями и определенными верхними слоями для каждой задачи. [15] Для нижних уровней они использовали предварительно обученную модель BioBERT. Обучение на трех наборах данных дало наилучшие результаты, улучшив показатель F1 на 0,2–1,3% по сравнению с однозадачной моделью обучения и дополнительно улучшив модель Wang et al. на 0,7–2,3% F1.

Уникальный способ применения многозадачного обучения - совместная работа нескольких отдельных моделей. CollaboNet - это платформа, которая применяет этот трюк и использует определенные модели, обученные на разных наборах данных для разных задач. [24] Авторы отмечают, что регулярное многозадачное обучение дает модели, которые хорошо оцениваются по запоминанию, но имеют более низкую точность. Поскольку эти модели обучаются на нескольких разных типах сущностей, они, как правило, испытывают трудности с предсказанием правильного типа сущности. Кроме того, авторы определяют проблему в биомедицинской области, где сущности могут быть помечены как разные типы сущностей в зависимости от контекста. Некоторые слова могут обозначать ген в одном контексте и болезнь в другом.

В CollaboNet они попытались решить эту проблему, имея экспертные модели для каждого типа сущностей, которые взаимодействуют друг с другом. Во время обучения эти модели по очереди обновляются или функционируют в качестве соавторов. Каждая модель получает выходные данные моделей-соавторов и использует их в качестве дополнительных входных данных. В результате каждая модель считается экспертом в своей области, а производительность других моделей повышается за счет использования многодоменной информации. По сравнению с Wang et al. CollaboNet добился увеличения показателя F1 на 0,2–5,0%. [18] Приятно отметить, что CollaboNet, в которой используется архитектура BiLSTM-CRF, уже уступает по производительности BioBERT. Однако сам фреймворк по-прежнему можно применять к более современным моделям, еще больше улучшая их оценки. Однако для того, чтобы применить его, потребуется достаточно памяти и времени.

Одним из способов решения проблемы памяти и времени является использование сетей меньшего размера или сетей, в которых используется распределение веса. Одной из таких многообещающих моделей является BioALBERT, основанная (как вы уже догадались): ALBERT. [25,26] Помимо своих методов уменьшения параметров для ускорения модели, авторы обучили свою модель не только задаче NER, но также применили предсказание порядка предложений. Этот метод берет два последовательных предложения и два случайных предложения из обучающих данных и пытается предсказать, следует ли одно за другим. Это позволяет модели лучше изучать контекстно-зависимые представления.

BioALBERT постоянно превосходит BioBERT по нескольким наборам данных, часто с большим отрывом, и их отчетные оценки весьма впечатляют. А с уменьшением параметров время поезда примерно в 2–3 раза меньше: огромная победа! Авторы сделали свою модель общедоступной на Github.

NER на основе знаний и онтологии

Когда в вашем распоряжении не так много помеченных данных из-за дорогостоящего и трудоемкого процесса аннотации, может быть другой способ обучения вашей модели: NER на основе знаний. Модели NER, основанные на знаниях, классифицируются на основе соответствия онтологии и аннотаций.

Аннотации сложного набора данных MedMentions основаны на обширной онтологии UMLS. [3] Эта богатая онтология, содержащая миллионы концепций, используется в нескольких исследованиях, посвященных созданию систем BioNER. Набор данных MedMentions "всего" аннотирован 352 тысячами упоминаний концепций UMLS, но это по-прежнему один из самых сложных наборов данных. Большое количество концептов затрудняет запоминание или обобщение любой модели. Поэтому неудивительно, что самые эффективные модели на основе BERT на этом наборе данных достигают тестовой оценки около 56% F1. [27] В следующем сообщении в блоге моего коллеги Стефана Тулкенса будет предпринята попытка обработать набор данных MedMentions неконтролируемыми методами, так что следите за обновлениями!

Назад к NER, основанному на знаниях: в 2013 году Чжан и Эльхадад создали векторы сигнатур для каждого встречающегося типа сущности UMLS путем усреднения векторов TF-IDF каждого вхождения в корпусе. [28] Затем эти векторы сравниваются с векторами всех фрагментов именных фраз для идентификации всех сущностей. Он превосходит традиционные методы, основанные на словарях, но уступает более современным контролируемым методам.

Гиасванд и Кейт превзошли Чжана и Эльхадада, сделав несколько улучшений. [28,29] Они используют только однозначные термины UMLS в качестве исходных терминов для создания как положительных, так и отрицательных примеров. Синтаксические и семантические особенности этих примеров использовались для обучения ансамбля деревьев решений. Результат этой модели затем был использован для расширения примеров, чтобы также включить неоднозначные термины UMLS. Этот цикл повторялся несколько раз. Этот метод превзошел другие неконтролируемые методы, а для некоторых классов сущностей он работал сравнимо с контролируемыми системами, в которых использовались ручные аннотации.

Аналогичным образом De Vine et al. изучил встраивание концепций из произвольных текстовых заметок, сначала извлекая концепции с помощью сопоставителя, включенного в UMLS. [30] Затем они заменили любые промежутки в тексте идентификатором этого концепта, а затем изучали встраивание концептов, применяя skip-gram (например, word2vec). Эти концепции были оценены путем сопоставления косинусных расстояний между концепциями с человеческими суждениями на двух небольших наборах данных и дали положительные результаты.

Beam et al. применили аналогичный подход и позже сделали свои вложения общедоступными. [31] Фан и др. выучили вложения имен, используя своего рода сиамскую сеть: они использовали предварительно обученные встраивания слов и встраивания символов в качестве входных данных для BiLSTM. [32] Затем выходные данные BiLSTM использовались для расчета трех потерь: один, который штрафует расстояние между синонимами (т. е. синонимы должны быть близко друг к другу), другой, который штрафует расстояние между именем и концептом ( т. е. концепт, представленный именем), и тот, который штрафует расстояние до локального контекста (т. е. среднее количество вложений слов, в которых встречается концепт). Их модель превзошла другие базовые показатели по многим задачам поиска, сходства и родства.

Исследователи из Facebook AI предложили языковую модель с расширенными знаниями без учителя (KALM), которая дополняет традиционную языковую модель базой знаний, прошедшей сквозное обучение для оптимизации затруднений. [33] Во время обучения он использует механизм стробирования, чтобы контролировать, является ли слово общим словом или должно ли оно быть смоделировано как ссылка на сущность, с учетом наблюдаемого контекста и базы знаний. как вход. Впоследствии он использует этот механизм стробирования во время прогнозирования, чтобы предсказать, является ли слово сущностью. Он не требует какой-либо дополнительной информации, такой как помеченные именованные теги объектов в текстовом корпусе, и по-прежнему обеспечивает производительность, сопоставимую с современными контролируемыми моделями.

Карадениз и Озгюр решают проблему нормализации сущностей: отображение сущностей в онтологию / словарь, что необходимо для понимания идентифицированных сущностей. [34] Это нетривиальная проблема в биомедицине по нескольким причинам. Как упоминалось ранее, часто возникает проблема двусмысленности, когда объекты могут иметь различное семантическое значение в зависимости от контекста. Кроме того, существует также проблема идентификации концептов, которые встречаются в тексте в различных поверхностных формах (например, в настоящем и прошедшем времени или в сокращениях).

Авторы используют как семантическую, так и синтаксическую информацию неконтролируемым образом, используя предварительно обученные вложения слов с информацией синтаксического анализа. Они достигли нового современного показателя точности, превзойдя предыдущий показатель на 2,9 процентных пункта.

Но что вы делаете, когда объекты, которые вы хотите извлечь, явно не упоминаются в тексте, а скорее; скрытый? В качестве примера предположим, что предложение содержит слово гидролизованный. Слова вода или H2O не упоминаются явно, но можно сделать вывод, что вода участвует в процессе.

Шошан и Радинский придумали задачу Извлечение скрытых сущностей (LEE), в которой вы пытаетесь идентифицировать эти неявные сущности. [35] В своих исследованиях авторы сосредоточили внимание на области биохимических реакций с использованием онтологии Reactome. Они обучили несколько классификаторов типа один против всех, используя предварительно обученные вложения слов и классификатор BiLSTM сверху, по одному классификатору для каждого типа сущности. Здесь также применялось многозадачное обучение не только для обучения каждого классификатора его назначенному типу сущности, но и другим связанным типам. Авторы показали, что их модель достигает высокой производительности при идентификации этих скрытых сущностей. Авторы приходят к выводу, что задача LEE значительно улучшит многие системы и приложения NER, созданные на их основе.

Заключительные замечания

Не следует недооценивать проблемы, связанные с распознаванием названных сущностей в биомедицинских целях. К счастью для всех нас, активно применяющих ИИ в разработке программных продуктов, есть много ярких умов, которые помогают нам справиться с этой сложной областью.

Меня воодушевляют многочисленные «уловки», которые мы можем использовать, чтобы продвинуться дальше. Например, вы можете использовать платформу CrossWeigh для работы с зашумленными аннотациями, идентификации и удаления ваших данных или использовать корпуса серебряного стандарта для предварительного обучения вашей модели. И вам, безусловно, следует использовать трансферное обучение и многозадачное обучение для связанных задач, если у вас есть возможность это сделать.

Доступно множество предварительно обученных моделей, и вы можете выбрать одну из нескольких схем многозадачного обучения. И, если у вас нет доступных аннотированных данных, я рекомендую обратиться к системам, основанным на знаниях, которые используют онтологии или любую другую базу знаний. Наконец, подумайте, могут ли быть в ваших текстах неявные сущности. Если это так, не пренебрегайте ими и все равно попытайтесь извлечь их.

Заключительное замечание: я уверен, что мы упустили некоторые интересные и многообещающие методы, доступные в литературе. Если вам что-то известно, поделитесь ими с остальной частью сообщества, оставив ответ в комментариях (вы классный). И удачи в путешествии по BioNER!

Спасибо моим коллегам Михелю ван де Стигу и Стефану Тулкенсу за участие в исследовании.

использованная литература

[1] В. Ядав и С. Бетхард, Обзор последних достижений в распознавании именованных сущностей на основе моделей глубокого обучения (2018), Труды 27-й Международной конференции по компьютерной лингвистике.

[2] Дж. Ли, А. Сан, Дж. Хан и К. Ли, Обзор глубокого обучения для распознавания именованных сущностей (2020 г.), IEEE Transactions on Knowledge and Data Engineering.

[3] С. Мохан и Д. Ли, MedMentions: большой биомедицинский корпус, аннотированный концепциями UMLS (2019), Труды конференции 2019 года по автоматизированному построению базы знаний.

[4] Дж. Д. Ким, Т. Охта, Ю. Цуруока, Ю. Татеиси и Н. Коллиер, Введение в задачу распознавания биологических сущностей в JNLPBA (2004 г.), Proceedings of the International Joint Семинар по обработке естественного языка в биомедицине и ее приложениях.

[5] М. Хуанг, П. Лай, Р. Т. Цай и В. Сюй, Пересмотренный корпус JNLPBA: исправленная версия биомедицинского корпуса NER для задачи извлечения отношений (2019), arXiv: 1901.10219 [cs.IR].

[6] З. Ван, Дж. Шан, Л. Лю, Л. Лу, Дж. Лю и Дж. Хан, Перекрестное взвешивание: обучение теговщикам именованных сущностей из несовершенных аннотаций (2019), arXiv: 1909.01441 [cs.CL].

[7] EF Tjong Kim Sang и F. De Meulder, Введение в общую задачу CoNLL-2003: независимое от языка распознавание именованных сущностей (2003), Труды седьмой конференции по изучению естественного языка на HLT-NAACL 2003.

[8] Х. Ким и Дж. Канг, Как ваши биомедицинские модели именованных сущностей распространяются на новые сущности? (2021), arXiv: 2101.00160 [cs.CL].

[9] К. Кларк, М. Яцкар и Л. Зеттлемойер, Не выбирайте легкий путь: методы на основе ансамбля для предотвращения известных систематических ошибок набора данных (2019 г.), Материалы конференции 2019 г. по эмпирическим методам обработки естественного языка и 9-я Международная конференция по обработке естественного языка.

[10] Дж. Ли, В. Юн, С. Ким, Д. Ким, С. Ким, С. Хо Со и Дж. Канг, BioBERT: предварительно обученная модель представления языка биомедицинских. для биомедицинского анализа текстов (2020), Биоинформатика.

[11] Л. Вебер, М. Зенгер, Дж. Мюнхмайер, М. Хабиби, У. Лезер и А. Акбик, HunFlair: простой в использовании инструмент для -Art Biomedical Named Entity Recognition (2021), Биоинформатика.

[12] М. Нойман, Д. Кинг, И. Бельтаги и В. Аммар, ScispaCy: быстрые и надежные модели для биомедицинской обработки естественного языка (2019), arXiv: 1902.07669 [cs.CL ].

[13] Л. Вебер, Дж. Мюнхмейер, Т. Роктэшель, М. Хабиби, У. Лезер, HUNER: улучшение биомедицинской ЧЭЭ с предварительным обучением (2019), Биоинформатика.

[14] Я. Тиан, В. Шен, Я. Сонг, Ф. Ся, М. Хе и К. Ли, Улучшение распознавания биомедицинских именованных сущностей с помощью синтаксической информации (2020), BMC Bioinformatics .

[15] М.Р. Хан, М. Зияди и М. Абдельхади, MT-BioNER: Многозадачное обучение для биомедицинского распознавания именованных сущностей с использованием глубоких двунаправленных преобразователей (2020), arXiv: 2001.08904 [cs. CL].

[16] Я. Пэн, С. Ян и З. Лу, Трансферное обучение в биомедицинской обработке естественного языка: оценка BERT и ELMo на десяти наборах данных сравнительного анализа (2019 г.), Proceedings of the 18-й семинар BioNLP и общая задача.

[17] Дж. М. Джорджи и Г. Д. Бадер, Трансферное обучение для распознавания именованных сущностей с помощью нейронных сетей (2018), Труды одиннадцатой Международной конференции по языковым ресурсам и оценке.

[18] X. Ван, Y. Zhang, X. Ren, Y. Zhang, M. Zitnik, J. Shang, C. Langlotz и J. Han, Cross-type Biomedical Named Entity Recognition с глубоким многозадачным обучением (2018), Биоинформатика.

[19] А. Акбик, Д.А. Блайт и Р. Фоллграф, Контекстные вложения строк для маркировки последовательностей (2018), Труды 27-й Международной конференции по компьютерной лингвистике.

[20] A.E.W. Джонсон, Т. Поллард, Л. Шен, Л. Х. Леман, М. Фенг, М. Гассеми, Б. Муди, П. Соловиц, Л.А. Чели и Р.Г. Марк, MIMIC-III, свободно доступная база данных по интенсивной терапии (2016), Scientific Data.

[21] М. Хофер, А. Кормилицин, П. Голдберг и А. Невадо-Холгадо, Кратковременное обучение распознаванию именованных сущностей в медицинском тексте (2018), arXiv: 1811.05468 [cs .CL].

[22] Э. Хови, М. Маркус, М. Палмер, Л. Рамшоу и Р. Вайшедель, OntoNotes: 90% решение (2006 г.), Труды конференции по технологиям человеческого языка NAACL.

[23] Дж. Пеннингтон, Р. Сочер и К.Д. Мэннинг, Перчатка: глобальные векторы для представления слов (2014), Труды конференции 2014 года по эмпирическим методам обработки естественного языка.

[24] У. Юн, С. Со и Дж. Ли, CollaboNet: сотрудничество глубоких нейронных сетей для биомедицинского распознавания именованных сущностей (2019), BMC Bioinformatics.

[25] У. Насим, М. Хуши, В. Редди, С. Раджендран, И. Раззак и Дж., Ким, BioALBERT: простая и эффективная предварительно обученная языковая модель для биомедицинской именованной сущности. Признание (2020), arXiv: 2009.09223 [cs.CL].

[26] З. Лан, М. Чен, С. Гудман, К. Гимпель, П. Шарма и Р. Сорикут, АЛЬБЕРТ: облегченный BERT для самостоятельного изучения языковых представлений ( 2019), arXiv: 1909.11942 [cs.CL].

[27] К.С. Fraser, I. Nejadgholi, B. Bruijn, M. Li, A. LaPlante и K.Z. Абидин, Извлечение концепций UMLS из медицинского текста с использованием общих и предметно-ориентированных моделей глубокого обучения (2019), arXiv: 1910.01274 [cs.CL].

[28] С. Чжан и Н. Эльхадад, Неконтролируемое биомедицинское распознавание именованных сущностей: эксперименты с клиническими и биологическими текстами (2013), Журнал биомедицинской информатики.

[29] О. Гиасванд, Р.Дж. Кейт, Обучение клиническому распознаванию именованных сущностей без ручных аннотаций (2018), Информатика в медицине разблокирована.

[30] Л. Де Вайн, Г. Цуккон, Б. Купман, Л. Ситбон и П. Бруза, Медицинское семантическое сходство с нейронной языковой моделью (2014), Труды 23-го ACM Международная конференция по управлению информацией и знаниями.

[31] А.Л. Луч, Б. Компа, А. Шмальц, И. Фрид, Г. Вебер, Н. Палмер, X. Ши, Т. Кай и И.С. Кохан, Встраивание клинических концепций, извлеченных из массивных источников мультимодальных медицинских данных (2018), Тихоокеанский симпозиум по биокомпьютингу.

[32] M.C. Фан, А. Сан и Й. Тай, Робастное репрезентативное изучение биомедицинских имен (2019), Труды 57-го ежегодного собрания Ассоциации компьютерной лингвистики.

[33] А. Лю, Дж. Ду и В. Стоянов, Модель языка с расширенными знаниями и ее применение для неконтролируемого распознавания именованных сущностей (2019), Труды Конференции Севера 2019 г. Американское отделение Ассоциации компьютерной лингвистики: технологии человеческого языка.

[34] İ. Карадениз и А. Озгюр, Связывание сущностей через онтологию с использованием встраивания слов и синтаксического повторного ранжирования (2019), BMC Bioinformatics.

[35] Э. Шошан и К. Радинский, Извлечение скрытых сущностей: как извлекать сущности, которые не появляются в тексте? (2018), Труды 22-й конференции по компьютерному изучению естественного языка.

Кто есть кто и что есть что: достижения в области распознавания именных биомедицинских организаций (BioNER)

Мысли и теория