Имея научный портфель на сумму более 3,5 миллиарда фунтов стерлингов (по состоянию на март 2020 года), Wellcome Trust профинансировал исследования, по которым было опубликовано не менее десятков тысяч академических публикаций только за последние 5 лет. Этот том публикаций представляет собой проблему для консультантов по грантам и аналитиков при отслеживании результатов исследований. В частности, Wellcome Data Labs часто задают повторяющийся вопрос:

Как мы можем визуализировать области / темы исследований, которые возникли в результате наших финансируемых грантов?

Этот сложный вопрос исследовался ранее, например, в области нейробиологии путем отслеживания поездок исследователей на конференциях. Недавно Исследовательский институт, возглавляемый Wellcome, подошел к этому вопросу, проанализировав, как исследователи цитируют друг друга, и визуализировав свои сети.

В этом посте мы опишем метод машинного обучения, используемый в Wellcome Data Labs для разработки инструмента, который может создавать многократно используемые диаграммы исследовательского портфеля на основе исследовательских текстов, включая резюме грантов и академические публикации.

Что такое область исследований?

Первая удивительная проблема, с которой мы сталкиваемся, пытаясь визуализировать области исследования, - семантическая: что такое область исследования? Один из способов ответить на этот вопрос - взглянуть на существующую систему классификации академической литературы. Например, в области медицины наиболее заметными системами являются медицинские предметные рубрики (MeSH) и Международная статистическая классификация болезней и проблем, связанных со здоровьем (ICD). Это очень полные системы тегов на основе дерева. Они могут включать в себя такие широкие классификации, как Диагностика, и такие узкие, как Четырехмерная компьютерная томография. В других областях, таких как информатика, некоторые онлайн-базы данных (в первую очередь ArXiv) предоставляют широкие классы, включая теорию информации и искусственный интеллект.

На практике иметь дело с этими системами сложно из-за того, что:

  • Некоторые системы либо слишком гранулированы, либо недостаточно гранулированы.
  • Часто бывает трудно определить представляющие интерес подобласти, поскольку они могут охватывать несколько классификаций, что потребует значительного компонента вмешательства в области знаний предметной области, чтобы обеспечить правильный «разрез» данных.
  • Некоторые области, особенно новые, трудно определить, и они не имеют однозначной связи с существующими детализированными классификациями.
  • Не все данные (в частности, данные о грантах) помечены. (На самом деле, в рамках совместного проекта Wellcome Data Labs изучается, как автоматизировать теги с помощью машинного обучения).

Все вышеперечисленные аргументы являются убедительным аргументом в пользу использования неконтролируемого обучения, подобласти машинного обучения, которая имеет дело с немаркированными / некатегоризованными данными. Используя обучение без учителя, мы анализируем исследования исключительно на основе (сырых) текстовых документов, таких как названия публикаций и аннотации. Мы опишем следующие три конкретных метода, которые мы использовали последовательно для этой задачи: встраивание, уменьшение размерности и кластеризация.

Обучение без учителя процветает в ситуациях, когда данные не классифицируются или поля трудно определить по существующим ранее системам классификации.

Пример набора данных

Ради конкретного примера, с этого момента мы будем использовать открытые данные, предоставляемые превосходной базой данных ArXiv, для анализа областей исследований, появившихся в академической литературе по машинному обучению за последние 5 лет.

Как выглядят направления исследований?

Первым шагом к применению обучения без учителя к этому набору данных является преобразование текстов в числа, которые можно интерпретировать с помощью машинного обучения. Этот процесс можно условно назвать встраиванием. Мы можем достичь встраивания путем подсчета частоты слов в тексте или с помощью более сложных методов, которые пытаются сохранить семантику текстов, таких как word2vec или BERT. Это будет связано с каждым названием публикации и рефератом, скажем, последовательностью из сотен цифр.

После преобразования текстов в числа мы можем затем использовать метод, называемый уменьшением размерности (мы использовали конкретный метод, называемый t-SNE), чтобы мы могли отображать публикации в виде графика или диаграммы. Этот метод, наряду с встраиванием, пытается сохранить сходство между текстами. Результатом является диаграмма, аналогичная приведенной ниже, где каждая точка представляет собой академическую публикацию.

На данный момент найти область исследования из набора данных все еще непросто и может выглядеть как поиск иголки в стоге сена. Чтобы облегчить процесс, нам нужно сгруппировать публикации вместе.

Кластеризация

До сих пор мы нанесли точки на график, который позволяет нам визуализировать академические публикации, как если бы они были точками на графике. Последний шаг, чтобы разобраться в этих данных, - это применить процедуру, называемую кластеризацией, которая по существу раскрасит аналогичные точки исследования вместе, причем каждый цвет представляет собой поле. Ниже приведен снимок некоторых кластеров публикаций по машинному обучению на ArXiv после применения метода кластеризации под названием DBScan.

Снимок некоторых кластеров для академической публикации, связанной с машинным обучением

Это соседство сосредоточено вокруг кластера, который мы назвали «обучение с подкреплением» после изучения статей. Обучение с подкреплением, область машинного обучения, где программы учатся выполнять действия на основе взаимодействия с окружающей средой, дает основу для многих приложений, которые появляются в соседних кластерах, а именно для игр и машинного обучения и прогнозирования запасов. Некоторые из его публикаций перечислены ниже.

Сколько полей должно у нас быть? Часто задаваемый вопрос заключается в том, как мы определяем количество областей исследования, на которые нам следует обратить внимание, или, в нашем случае, количество кластеров. В зависимости от того, как мы оптимизируем алгоритм кластеризации, он может выводить от десятков до сотен кластеров. Чтобы настроить оптимальное количество, нам может помочь пара показателей машинного обучения (например, оценка силуэта). Тем не менее, окончательное количество кластеров, вероятно, будет сочетанием показателей машинного обучения и знаний предметной области. Исходя из нашего опыта, окончательные названия кластеров и количество кластеров будут результатом итеративного процесса с участием заинтересованных сторон, который выглядит следующим образом:

  1. Представьте определенную кластерную диаграмму и набор данных с некоторыми репрезентативными примерами для каждого кластера экспертам в предметной области.
  2. Получение указаний на кластеры, которые нуждаются в слиянии, или кластеры, которые нуждаются в разделении
  3. Повторно запустить кластеризацию, чтобы разделить и объединить
  4. Применяйте 1–3, пока мы не достигнем приемлемого уровня приемлемости для пользователей.

Завершение визуализации и рисование идей

Интерактивную визуализацию, которая объединяет все вышеперечисленные шаги для нашего образца набора данных машинного обучения, можно найти здесь (загрузка может занять несколько секунд). Например, в нашем гипотетическом примере (с реальными данными!) Анализа публикаций по машинному обучению, помимо зеленого кластера обучения с подкреплением на юге карты, мы можем получить несколько качественных выводов. Например, из диаграммы мы можем видеть, что традиционные темы, такие как гауссовские модели, графические модели в середине диаграммы, со временем потеряли интерес, в то время как растет интерес к таким темам, как справедливость, распознавание эмоций с использованием изображений и состязательного машинного обучения .

В целом мы обнаружили, что интерактивные диаграммы не только воплощают в жизнь модели машинного обучения, но и очень эффективны для вовлечения заинтересованных сторон в процесс, что позволяет уточнить процесс кластеризации таким образом, чтобы это было полезно для апостериорного анализа.

Как это помогает принимать решения о финансировании исследований?

Возвращаясь к нашему первоначальному варианту использования, диаграмма исследований помогает генерировать новые качественные идеи, новые фрагменты данных и служит отправной точкой для дальнейших обсуждений. Имея широкое представление об исследовательском ландшафте, можно очень быстро определить области, представляющие новый интерес. Кроме того, как упоминалось в предыдущем академическом исследовании, инструмент визуализации области исследования может помочь спонсорам обеспечить соответствующий охват или соответствующую направленность, в зависимости от цели каждого конкретного подразделения.