Обработка естественного языка, или НЛП, — одна из самых популярных областей, в которой применение методов машинного обучения приносит настоящий успех. В настоящее время почти все задачи NLP можно решить с помощью машинного обучения: от простой сети классификации LSTM до недавней волны преобразователей, таких как BERT, GPT или T5.

Поскольку эта статья не является введением или объяснением НЛП, я предлагаю следующие интересные статьи, чтобы, прежде всего, понять, что такое НЛП:

Обработка естественного языка — это весело!

Мягкое начало обработки естественного языка с помощью Python

Введение в обработку естественного языка для текста

Работа над научными исследованиями требует знания современного состояния дел. Именно поэтому я написал этот пост, в котором представлю некоторые из наиболее активных академических исследовательских групп, работающих над НЛП.

Команда №1:«Стандфордская группа НЛП»

Первая команда в списке — это, конечно же, группа The Standford NLP. Под председательством профессора Кристофера Мэннинга это самая известная и влиятельная команда в области НЛП благодаря их неоценимому вкладу. Члены команды имеют множество научных публикаций, однако наиболее известны они благодаря своему инструменту НЛП CoreNLP. Этот инструмент позволяет пользователям легко обрабатывать многие лингвистические задачи, такие как токенизация, части речи, распознавание именованных сущностей, анализ зависимостей, идентификация кореферентности, анализ настроений и многое другое. Кроме того, он доступен на 6 языках: арабском, китайском, английском, французском, немецком и испанском. CoreNLP разработан с использованием Java, который является наиболее используемым языком программирования, но в то же время не предпочтительным для проектов машинного обучения. Недавно они опубликовали новый инструмент, сделанный Python: Stansa. Этот проект выглядит многообещающе и может быть связан с API CoreNLP.

  • Организация:Группа Стэнфордского университета.
  • веб-страница:


Команда №2: «Гарвардский НЛП».

Эта команда является частью Гарвардского университета. Все их статьи и проекты были сосредоточены на задачах НЛП, таких как обобщение, перевод, отслеживание сущностей в документах, генерация текста и исправление грамматических ошибок. Многие из их проектов доступны в открытом доступе через GitHub (http://nlp.seas.harvard.edu/code/).

  • Организация:Гарвардский университет
  • Веб-страница:


Команда № 3: «Исследовательская группа по естественному языку и обработке информации (NLIP)»

Эта исследовательская группа занимается НЛП более пятидесяти лет. Они организуют свои работы в несколько проектов (полный список здесь: https://www.cl.cam.ac.uk/research/nl/projects/), у каждого из которых есть временная шкала, дата начала и окончания, а также конечно очень четкая цель. На самом деле их подход очень интересен. Они фиксируют целевое решение заданной проблемы и пытаются решить ее, предлагая новый научный подход с использованием техники НЛП. Например, они работают с разговорными агентами в качестве помощи в избирательном процессе. в другом проекте они пытались решить проблемы с фейковыми новостями, используя название решения AVeriTeC и основанное на машинном обучении. Обратите внимание, что они начнут новый проект, посвященный анализу пандемии с использованием НЛП.

  • Организация :Кембриджский университет
  • Веб-страница:


Команда №4: «ЭдинбургНЛП»

Группа обработки естественного языка Эдинбургского университета — одна из крупнейших групп НЛП в мире и, возможно, самая продуктивная в Европе. Они проводят исследования почти во всех основных областях обработки естественного языка. Помимо их научной статьи, у них есть много полезного программного обеспечения, доступного на Github, для перевода текста, классификации твитов и многого другого (http://edinburghnlp.inf.ed.ac.uk/index.php/resources/).

  • Веб-страница: