Набор инструментов для обработки естественного языка Python для многих человеческих языков

Станца | Набор инструментов НЛП на основе Python

Это резюме исследования - лишь одно из многих, которые еженедельно распространяются в информационном бюллетене для ученых в области ИИ. Чтобы начать получать еженедельную рассылку, зарегистрируйтесь здесь.

Без сомнения, искусственный интеллект прошел долгий путь, но есть концепции, над которыми все еще ведется работа. Обработка естественного языка (NLP), методика, в которой используются вычислительные техники с целью изучения, понимания и создания контента на человеческом языке, является одним из тех подполей ИИ, которым еще предстоит пройти долгий путь.

Что ж, были успехи и растущее развитие вычислительных подходов к изучению человеческих языков, обусловленное доступностью наборов инструментов для обработки естественного языка (NLP) с открытым исходным кодом, таких как CoreNLP, FLAIR, spaCy1 и UDPipe. Однако у них есть несколько ограничений.

Проблемы существующих наборов инструментов НЛП

  • Существующие наборы инструментов НЛП поддерживают только несколько основных языков, что значительно ограничивает возможности сообщества обрабатывать многоязычный текст.
  • Наборы инструментов также иногда недостаточно оптимизированы для обеспечения точности, что может ввести в заблуждение последующие приложения и информацию, полученную от них.
  • Кроме того, они предполагают, что вводимый текст был аннотирован с помощью других инструментов, не имея возможности обрабатывать необработанный текст с помощью единой структуры. Результатом является ограничение для широкого применения к тексту из различных источников.

Представляем Stanza NLP Toolkit

В недавно опубликованной статье исследователи представляют Stanza, пакет анализа естественного языка Python с открытым исходным кодом. Станца содержит инструменты, которые можно использовать в конвейере, для преобразования строки, содержащей текст на человеческом языке, в списки предложений и слов, для генерации базовых форм этих слов, их частей речи и морфологических особенностей, для анализа зависимости синтаксической структуры , и распознавать именованные объекты.

По сравнению с существующими широко используемыми инструментами, Stanza имеет не зависящий от языка полностью нейронный конвейер для анализа текста, включая токенизацию, расширение токенов из нескольких слов, лемматизацию, тегирование частей речи и морфологических признаков, синтаксический анализ зависимостей и распознавание именованных сущностей.

Исследователи говорят, что они обучили Stanza в общей сложности 112 наборам данных, включая древовидные банки универсальных зависимостей и другие многоязычные корпуса, и показывают, что одна и та же нейронная архитектура хорошо обобщается и обеспечивает конкурентоспособную производительность на всех протестированных языках.

Кроме того, Stanza включает собственный интерфейс Python для широко используемого программного обеспечения Java Stanford CoreNLP, который дополнительно расширяет его функциональные возможности, чтобы покрыть другие задачи, такие как разрешение кореференции и извлечение отношений.

Нейронный конвейер Stanza не только в широком охвате человеческих языков, но и точен во всех задачах благодаря не зависящему от языка, полностью нейронному архитектурному дизайну.

Станца: особенности и преимущества

  1. От исходного текста до аннотаций - Stanza имеет полностью нейронный конвейер, который принимает необработанный текст в качестве входных данных и производит аннотации, включая токенизацию, расширение токенов из нескольких слов, лемматизацию, тегирование частей речи и морфологических признаков, синтаксический анализ зависимостей и распознавание именованных сущностей. .
  2. Многоязычность - архитектурный дизайн Stanza не зависит от языка и управляется данными, что позволяет нам выпускать модели, поддерживающие 66 языков, путем обучения конвейера на банках деревьев универсальных зависимостей (UD) и других многоязычных корпусах.
  3. Современная производительность - нейронный конвейер Stanza, оцениваемый на основе 112 наборов данных, хорошо адаптируется к текстам разных жанров, достигая самых современных или конкурентоспособных показателей на каждом этапе конвейера.
  4. Собственная реализация Python, требующая минимальных усилий для настройки
  5. Предварительно обученные нейронные модели, поддерживающие 66 (человеческих) языков;
  6. Стабильный официально поддерживаемый интерфейс Python для CoreNLP.

Получить доступ

Исходный код, документация и предварительно обученные модели для 66 языков общедоступны здесь.

Подробнее: Набор инструментов для обработки естественного языка Python

Спасибо за внимание! Я ценю ваши комментарии и репосты и с удовольствием пообщаюсь в Twitter, LinkedIn и Facebook. Чтобы получать обновления о самых последних и интересных исследовательских работах по машинному обучению, подпишитесь на AI Scholar Weekly. Пожалуйста, если вам понравилась эта статья. Ура!