Обналичивание чека открытого доступа или машинного обучения и академических инструментов

Я написал о дюжине новых инструментов, представляющих интерес, если вы проводите академические исследования в июле, однако марш прогресса никогда не стоит на месте, поэтому я возвращаюсь, чтобы поговорить о паре новых инструментов, которые были запущены или находятся в закрытой бета-версии, как на время написания, на которое, возможно, стоит обратить ваше внимание.

Поиск по ключевым словам - Lens.org, Мета.

2. Инструмент на основе цитирования - Sciride, Scite.

3. Автосуммаризация - Paper Digest, Scholarcy, Gettheresearch, Iris.AI.

Важно отметить, что мы находимся на начальной стадии бурного роста идей и инноваций, ставшего возможным благодаря развитию открытого доступа и открытых данных. Многие из этих инструментов, о которых я упоминал, существуют сегодня только потому, что они имеют бесплатный доступ к миллионам полнотекстовых статей в открытом доступе и могут применять новейшие методы машинного обучения, НЛП и искусственного интеллекта.

1. Поиск по ключевым словам - линза и мета

Lens.org не новый, но недавно он улучшил свои возможности до такой степени, что стоит взглянуть на него по-новому.

Трудно превзойти Google Scholar в чистом открытии, но с точки зрения размера - Lens, который объединяет научные записи из Crossref, Microsoft Academic, Pubmed Central, безусловно, не лишен масштабов. Когда я пишу это, я вижу почти 200 миллионов записей, что делает его одним из крупнейших научных указателей.

В отличие от Google Scholar, Lens также является инструментом опытного пользователя, и вы будете поражены мощными и гибкими фильтрами и расширенным поиском, которые позволяют фильтровать все, от информации о финансировании до принадлежности к автору.

Все это доступно благодаря смешиванию открытых источников данных от ORCID, CORE, Unpaywall и других.

Комбинация данных и фильтров означает, что вы можете выполнять большой объем анализа, который вам было бы сложно выполнить даже с помощью коммерческих инструментов.

Например, меня недавно попросили проверить, какие статьи а) написаны авторами нашего учреждения, б) имеют финансирование, в) и какие статьи опубликованы в открытом доступе. Это соперник в «Объективе».

Фактически, Lens явно спроектирован как потрясающий инструмент анализа: вы можете создавать коллекции, получать предупреждения и даже выполнять массовую загрузку до 50 000 записей (более щедрая, чем то, что вы получаете от дорогостоящих коммерческих инструментов, таких как Web of Science).

Фактически, панель анализа уже показывает несколько простых визуализаций, которые вы можете использовать без экспорта.

Я могу продолжить многие его функции, например цитируется патент, и, если вам интересно, вот очень длинный подробный обзор, но попробуйте, так как он доступен по низкой цене некоммерческой организацией Cambri.

Meta - долгожданный инструмент, спонсируемый Chan Zuckerberg Initiative, и, как и Lens, вероятно, навсегда останется бесплатным без рекламы.

В отличие от Lens, который является междисциплинарным, этот инструмент ориентирован на поддержку биомедицинских исследователей.

Пока я пишу это, этот инструмент все еще находится в стадии закрытого бета-тестирования, и я все еще играю с ним.

Основная задача этого инструмента, по-видимому, состоит в том, чтобы узнать, что вас интересует, и настроить каналы, которые вы можете настроить, чтобы научить инструмент тому, что вас интересует.

2. Инструмент на основе цитирования - Scite, Sciride, Semantic Scholar.

В более ранней публикации я говорил о Citation Gecko, инструменте, который позволяет вам вводить некоторые исходные статьи, и инструмент будет пытаться использовать открытые цитаты, чтобы попытаться идентифицировать связанные статьи.

Какими бы хорошими ни были Citation Gecko и другие инструменты, основанные на цитировании, они сообщают вам только о существовании цитирования, но не могут сказать вам точного характера связи между ссылками, а в случае цитирования между публикациями нам сообщают есть 13 разных причин процитировать. Можем ли мы вводить новшества в области обнаружения, раскрывая природу цитирования между элементами и позволяя пользователям фильтровать таким образом?

Это то, что Sciride делает, индексируя цитаты из биомедицинских статей открытого доступа от PMC.

Что такое цитата? Это «предложения из научных публикаций, подкрепленные цитированием других рецензируемых рукописей».

Другими словами, заявление о цитировании будет примерно таким.

«Показано, что у Google Scholar высокая запоминаемость, но низкая точность». (Тай, 2010)

Sciride позволяет выполнять поиск по ключевым словам цитаты. Итак, в этом примере я ищу термины

Google Scholar хорошо отзывается, и я получаю….

Я уверен, что вы можете придумать множество вариантов использования (например, поиск цитат по определенному программному обеспечению, практике или даже человеку, поиск того, что, как вы знаете, существует, но забыли название), но в настоящее время Sciride имеет ограниченное использование за пределами область, которую он охватывает (науки о жизни).

Мне кажется, что сервисы обнаружения с полным текстом, которые у них есть, могли бы реализовать что-то подобное с некоторыми усилиями (при наличии прав на это). Предположительно, потребуется работа, чтобы надежно идентифицировать цитаты и проиндексировать их.

Возможно, Sciride могла пойти дальше. В конце концов, все это просто позволяет выполнять поиск по ключевым словам по запросу цитирования. Можем ли мы провести какой-то анализ настроений, чтобы увидеть, является ли цитата положительной или отрицательной?

Тональный анализ цитат

Http://rfactor.verumanalytics.io/ идет дальше Sciride и сообщает вам, поддерживает ли статья статью, на которую она цитирует, или опровергает ее.

Как оно работает? По-видимому, это связано с ручным тегированием, которое ограничивает возможность масштабирования этой функции.

Были предложены еще более сложные отношения для цитирования, выходящие за рамки этого.

Например, есть очень интересное предложение в CiTO (Citation Typing Ontology). который предлагает дать возможность характеризовать характер или тип цитат, как фактических, так и риторических, и разрешить публикацию этих описаний в сети.

Фактическое типирование цитат может включать такие свойства, как цитируется или имеет цитату, в то время как риторические слова делятся на 3 подкласса: положительные (например, поддерживает), отрицательные (например, споры) и нейтральные (например, обзоры). . Смотрите подробнее здесь.

Список свойств объекта CitO

Основная проблема, конечно же, в том, кто будет кодировать все цитаты? В этой статье рассматриваются некоторые авторские инструменты аннотации, такие как расширения Chrome и другие инструменты для письма, но я сомневаюсь, что этого достаточно без автоматизированной или полуавтоматической системы кодирования, созданной с помощью машинного обучения, см., Например, алгоритм CiTalO или CiTO.

Но существуют ли автоматические методы анализа настроений, позволяющие определить, является ли цитирование положительным или отрицательным?

Scite - Шепардинг для науки

Основываясь на вышеизложенном, мы приходим к логической идее - системе, которая может автоматически научиться классифицировать цитаты. Действительно, Scite - это система, которая использует машинное обучение для разделения цитирования на «упоминание», «поддержку» и «противоречие» (и когда система не уверена в «неклассифицированной» категории)

На момент публикации этого сообщения инструмент все еще находится в закрытой бета-версии (РЕДАКТИРОВАТЬ: Теперь он доступен), но, как вы можете видеть из выше, помимо возможности фильтрации по типу цитирования, вы также можете фильтровать цитаты по раздел, в котором они появляются (например, вступление, метод, Результаты, Обсуждения).

Можно подумать, как можно использовать такие инструменты, например, сопоставление утверждений с помощью подтверждающих доказательств, новых показателей, но это зависит от точности и запоминания суждений, сделанных инструментом машинного обучения.

Можем ли мы определить, какие цитаты в статье имеют большое значение?

Если сложно сказать, является ли цитирование положительным или отрицательным, как насчет того, чтобы сказать, является ли цитирование важным или критическим для статьи? Мы знаем, что многие цитаты, которые делают люди, на самом деле не критичны для статьи, но что, если бы мы могли идентифицировать значимые цитаты?

Фактически, да, мы можем, и это особенность Семантического ученого - еще одной довольно новой ниши для поиска, ограниченной областью компьютерных наук.

Специалист по семантике не только показывает цитаты, но и пытается определить важные цитаты.

Как это работает? В увлекательной статье, озаглавленной Выявление значимых цитат, авторы описали свою работу, чтобы определить, какие ссылки на данную статью важны, а какие нет.

Используя вручную закодированный набор цитат, они пытаются использовать машинное обучение, чтобы научить систему распознавать важные цитаты. Впечатляюще он разработан, чтобы попытаться поймать не только прямые, но и косвенные цитаты.

Некоторые цитаты являются прямыми, то есть цитирование следует установленному формату разбирательства, другие - косвенным, когда работа цитируется путем упоминания имени автора, обычно первого автора, имени цитируемого алгоритма, описания алгоритма.

Например,

Некоторые косвенные цитаты, которые он обучен распознавать

Они протестировали множество функций, но выяснилось, сколько раз цитата появляется в статье (как в целом по всей статье, так и в каждом разделе, в каком разделе она появляется (например, появление в разделе методов обычно более важно, чем в обзоре) раздел), совпадение авторов - важные особенности.

Их система хорошо запоминается для распознавания важных цитат, но имеет умеренную точность 0,65.

Еще одна интересная особенность Semantic Scholar заключается в том, что они могут идентифицировать опросы и обзоры с помощью эвристики.

3. Автосуммирование текста - Академия, Бумажный дайджест, Iris.AI.

В предыдущем посте я говорил об инструменте Scholarcy, который может брать текст из статей и глав книг и обеспечивает автоматическое резюме текста.

Аналогичным инструментом является Paper Digest, который берет статьи в pdf-формате и резюмирует их.

Я лично немного не понимаю, насколько полезны такие инструменты. Я полагаю, что это вопрос добавленной стоимости таких инструментов по сравнению с беглым просмотром статьи, просматривая аннотации и обсуждения.

Конечно, чем больше вы знакомы с этой областью, тем меньше вам потребуется помощи с автоматическим суммированием, поэтому вопрос в том, могут ли эти инструменты выходить за рамки суммирования, но помочь новичкам в этой области сориентироваться? Другими словами, могут ли они помочь в предоставлении контекста?

Scholarcy обеспечивает некоторую базовую поддержку этого, указывая на статьи в Википедии по темам, которые он обнаруживает.

Но это лишь царапина на поверхности того, что могло бы быть возможным в этой области. Был объявлен очень амбициозный проект Get the Research от Impactstory, людей, стоящих за unpaywall.

Unpaywall собрал архив из 20 миллионов статей в открытом доступе и теперь получил финансирование, чтобы узнать, могут ли они использовать новейшие методы машинного обучения для создания «Механизма объяснения на основе ИИ».

Какие инструменты? Что ж, давайте вернемся к примеру Гамлета ... сегодня издатели решают проблему контекста для читателей Шекспира, добавляя примечания к тексту, которые определяют и объясняют сложные слова и фразы. Мы сделаем то же самое с 20 миллионами научных статей. И это только начало ... мы также работаем над концептуальными картами, автоматическими переводами на простой язык (например, автоматическая Простая Википедия), структурированными рефератами, руководствами по темам и многим другим. Благодаря недавнему прогрессу в области ИИ, все это можно автоматизировать, так что мы можем делать это в больших масштабах. Это ново. И он большой. - https://gettheresearch.org/

Наконец, мы подошли к Iris.AI, интересному инструменту, который стремится превзойти традиционные инструменты поиска, где вы можете выполнять поиск, записывая формулировки проблемы или загружая статьи. Оно использует

сочетание извлечения ключевых слов, встраивания слов, нейронного моделирования тем, подобия показателей документа на основе важности слов и иерархического моделирования тем. Этот подход в основном неконтролируемый, но мы используем оцененный набор аннотаций из нашего сообщества тренеров по ИИ для тестирования и улучшения наших инструментов.

Вывод

Многие из вышеперечисленных инструментов являются очень новыми, и многие используют преимущества открытого доступа и волны открытых данных, когда любой может получить доступ к миллионам полных текстов, чтобы применить новейшие методы машинного обучения и искусственного интеллекта, чтобы помочь исследователям лучше заниматься наукой.

Действительно, мы находимся на очень ранних стадиях этого развития, и я подозреваю, что мы увидим довольно много новых инновационных инструментов, появляющихся в том же духе.

Как отмечает «Get the research», такие разработки позволят нам «наконец обналичить чеки, выписанные движением за открытый доступ».

Обналичивание чека открытого доступа или машинного обучения и академических инструментов - Meta, Scite, Paper…