Руководство по началу работы с академической литературой

Обработка естественного языка (NLP) — сложная и постоянно развивающаяся область. Отчасти информатика, отчасти лингвистика, отчасти статистика — решить, с чего начать, может быть непросто. Книги и онлайн-курсы — отличное место для начала, а проектное обучение — всегда хорошая идея, но в какой-то момент возникает необходимость копнуть глубже, а это значит — обратиться к академической литературе.

Чтение академической литературы само по себе является искусством, и то, что статья популярна, не означает, что она подходит для новичка. Тем не менее, есть что сказать о статьях, которые выдержали испытание временем и получили широкое признание экспертов. Если статья постоянно цитируется в академической литературе, то, вероятно, будет справедливо сказать, что она является влиятельной.

Существует множество источников для поиска научных статей в Интернете, но одним из лучших является Google Scholar (GS), который предоставляет данные о цитировании. Мы собираемся использовать это как нашу меру влияния. К сожалению, GS не предоставляет API или другой простой способ программного доступа к данным, поэтому мы вручную загрузили первые 1000 результатов поиска по запросу обработка естественного языка, а затем проанализировали данные.

Если вам интересен код для этого проекта или вы хотите сами поиграть с данными, загляните в сопутствующий блокнот Jupyter на GitHub.

Исследование данных

Прежде чем мы начнем, давайте посмотрим на наши данные и посмотрим, с чем нам нужно работать. Всего в нашем наборе данных 973 статьи (после очистки строк с отсутствующими данными). Для каждой строки у нас есть столбцы для бумаги title, authors, blurb, citations, year и link.

У нас есть много информации для работы, но, к сожалению, у нас нет полных тезисов или полного текста статьи. Этого придется ждать в будущем проекте. Тем не менее, мы можем многое сделать только с данными о цитировании. Но являются ли данные цитирования правильной метрикой? Статьи, которые были опубликованы давно, имеют преимущество, потому что у них было больше времени для цитирования. Давайте добавим столбец citation_rate, чтобы показать, сколько цитирований данная статья получила за год с момента публикации.

Здорово! Теперь у нас есть по крайней мере две метрики, которые можно использовать при оценке того, насколько влиятельна та или иная статья в мире НЛП: общее количество цитирований; и коэффициент цитируемости с года публикации.

Исследования НЛП с течением времени

Прежде чем мы начнем изучать отдельные документы, было бы полезно получить общий обзор наших данных. Когда были опубликованы самые влиятельные документы по НЛП? Как изменилась эта тенденция с течением времени? Давайте построим график производства статей по НЛП по годам и посмотрим, как все выглядит.

Документы по НЛП определенно разрастаются с течением времени! Наши данные представляют собой лишь небольшую часть всех статей по НЛП, но даже здесь мы можем видеть тенденцию роста количества статей в год с середины 1970-х годов.

Однако здесь нам нужно быть осторожными, потому что только то, что публикуется больше статей, не обязательно говорит нам о том, где происходят влиятельные периоды производства. Это действительно говорит нам о росте популярности НЛП, что само по себе является интересной тенденцией. Возможно, мы сможем получить лучшее представление об аспекте влияния, взглянув на количество цитирований и уровень цитирования с течением времени.

Количество цитирований в год и уровень цитирования в год выглядят достаточно стабильными, но есть некоторые интересные отклонения. Что произошло в 1999 году? Похоже, это был знаменательный год для НЛП. Возможно, мы найдем ответ, продолжив анализ данных.

Влиятельные статьи

Теперь, когда у нас есть представление о более широкой тенденции создания статей по НЛП, давайте перейдем к нашему ключевому вопросу. Какие самые влиятельные газеты и книги? Что следует прочитать, если вы хотите узнать об НЛП?

Очевидное место для начала — посмотреть, какие статьи цитируются больше всего. Как правило, если статья широко цитируется в академической литературе, мы можем с полным основанием сказать, что она оказала влияние. Давайте посмотрим на 10 самых цитируемых статей.

Явным лидером по количеству цитирований является «Основы статистической обработки естественного языка» (FSNLP) С. Мэннинга и Х. Шутце, у которого 13 929 цитирований — более чем в два раза больше, чем у следующего претендента. FSNLP был опубликован в 1999 году, что, по-видимому, разрешило загадочный выброс из высокоуровневого взгляда на данные, который мы использовали ранее. Если мы используем количество цитирований в качестве нашей метрики влияния, эти данные подразумевают, что следующие пять наиболее влиятельных статей НЛП:

  • «Основы статистической обработки естественного языка» К. Мэннинга и Х. Шутце, 13 929 цитирований;
  • «Обработка естественного языка (почти) с нуля» Р. Коллоберта, Дж. Уэстона, Л. Ботту и М. Карлена, 6 484 цитирования;
  • Набор инструментов для обработки естественного языка Stanford CoreNLP, CD Manning, M Surdeanu, J Bauer и JR Finkel, 5409 цитирований;
  • Обработка естественного языка с помощью Python: анализ текста с помощью набора инструментов для работы с естественным языком, авторы С. Брид, Э. Кляйн и Э. Лопер, цитируется 5304 раза; и,
  • Унифицированная архитектура для обработки естественного языка: глубокие нейронные сети с многозадачным обучением, авторы Р. Коллоберт и Дж. Уэстон, цитируется 4862 раза.

Однако, как мы отмечали ранее, старые статьи имеют преимущество перед более новыми, потому что у них было больше времени для цитирования. Давайте посмотрим на другую нашу метрику, годовой коэффициент цитирования, чтобы увидеть, получаем ли мы другие результаты.

Наши пять лучших статей по коэффициенту цитирования почти такие же, как и лучшие статьи по общему количеству цитирований, с небольшим изменением порядка. Но у нас есть новый участник, и, более того, новый победитель! Обработка естественного языка от KR Chowdhary имеет самый высокий уровень цитирования — 863 цитирования в год. Более того, статья была опубликована в 2020 году, а значит, и года еще нет!

Взгляд на аннотацию не говорит нам много о том, почему эта статья была такой популярной, но если мы перейдем по ссылке на полную аннотацию, мы увидим, что статья на самом деле является главой из книги К. Р. Чоудхари «Основы искусственного интеллекта». Возможно, это кое-что говорит нам о тенденциях НЛП в целом, когда мы переходим от лингвистического анализа к приложениям искусственного интеллекта. К. Р. Чоудхари — профессор компьютерных наук в Джодхпурском инженерно-технологическом институте, и, судя по нашим данным, он сегодня является одной из самых влиятельных фигур в области НЛП и ИИ.

Говоря о влиятельных лицах, это кажется хорошим следующим шагом в нашем исследовании.

Влиятельные авторы

Одна из замечательных особенностей НЛП заключается в том, что она извлекает пользу из опыта самых разных людей, от ученых-компьютерщиков до лингвистов, статистиков и многих других.

Чтобы понять, кто является самым влиятельным автором, давайте начнем с того, кто самый плодовитый. Пока мы этим занимаемся, давайте посмотрим, сколько уникальных авторов участвовало в написании наших 973 влиятельных статей.

Похоже, что 1937 авторов внесли свой вклад в наши 973 статьи, что имеет смысл, поскольку у большинства статей несколько авторов. Самым плодовитым автором, написавшим 22 статьи, является С. Фридман. Так является ли С. Фридман самым влиятельным автором? Возможно, названия статей дадут нам подсказку.

Похоже, что большинство статей С. Фридмана связаны с проблемами медицины и биоинформатики. К сожалению, Google Scholar мало что говорит нам об авторах, но быстрый поиск в Интернете показывает, что С. Фридман — это профессор Кэрол Фридман, профессор биомедицинской информатики в Колумбийском университете. И с таким количеством статей на ее имя (некоторые из которых имеют сотни ссылок), она определенно выглядит влиятельным автором! Если вы интересуетесь биомедицинской информатикой, то она кажется хорошим автором для начала.

Конечно, количество статей само по себе не является единственным показателем влияния. Что произойдет, если мы посмотрим на другую меру? Вместо того, чтобы оценивать общее количество статей, давайте посмотрим, у какого автора больше всего цитирований.

Автором с наибольшим количеством цитирований является С. Мэннинг с ошеломляющими 13 960 цитированиями в наших данных. (Вы можете узнать это имя из нашего предыдущего обзора наиболее цитируемых статей.) Когда мы смотрим на 10 лучших авторов по общему количеству цитирований, возникает интересная головоломка. Си Мэннинг — ведущий автор, но еще один популярный автор — К. Д. Мэннинг. Они один и тот же человек? Посмотрим на бумаги.

И снова нам придется провести небольшое исследование, чтобы определить, являются ли C Manning и CD Manning одним и тем же человеком. Теперь, когда у нас есть названия статей, быстрый поиск в Интернете должен выявить нужную нам информацию. И действительно, мы видим, что все четыре статьи написаны в соавторстве с профессором Кристофером Д. Мэннингом, который является профессором машинного обучения, лингвистики и компьютерных наук в Стэнфордском университете и директором Стэнфордской лаборатории искусственного интеллекта. Профессор Мэннинг также является автором книги «Введение в поиск информации», которая не попала в наш поиск по запросу «обработка естественного языка», но, возможно, является его наиболее влиятельной работой с 18 934 цитированиями. Несмотря на то, что у профессора Мэннинга всего четыре статьи в нашем списке (плюс еще много статей, не входящих в наш список), число его цитирований, несомненно, является самым высоким. Если мы ищем самого влиятельного эксперта по НЛП, кажется, что Мэннинг — хороший кандидат.

Конечно, это поднимает вопрос о том, есть ли в нашем списке другие экземпляры авторов, перечисленных под несколькими разными именами. Ответ почти наверняка да. Однако, учитывая, что у нас почти 2000 разных авторов, мы пока отложим этот вопрос, а не будем пытаться изучить их всех.

Обучение у экспертов

Если количество статей по НЛП, публикуемых каждый год, является показателем, то может показаться, что НЛП — это растущая область. Здесь мы только коснулись поверхности, как с точки зрения количества проанализированных статей, так и с точки зрения типа анализа. Однако, если вы заинтересованы в изучении НЛП, возможно, эти данные послужат вам полезной отправной точкой. Итак, читайте и дайте нам знать, что вы думаете!