Фокус на распознавании именованных объектов

spaCy сыграл важную роль в том, чтобы сделать НЛП доступным, предоставив всеобъемлющие и богатые функциональные возможности, которые просты в использовании даже для неспециалистов по машинному обучению.

Она стала популярной библиотекой для всех практиков НЛП и станет более распространенной в будущем, поскольку интегрируется с другими популярными библиотеками, такими как Huggingface.

В этом руководстве я покажу вам, как обучить пользовательскую модель NER spaCy для автоматической маркировки ваших данных для контролируемого обучения с помощью инструмента текстовых аннотаций UBIAI.

Аннотация данных:

Автоматическое аннотирование путем обучения модели машинного обучения является ключевой функцией любого проекта аннотирования, поскольку оно значительно сокращает время аннотирования и делает задачу аннотирования менее сложной для человека. Аннотатору нужно будет только сделать бинарный выбор между правильной и неправильной аннотацией. Но прежде чем обучать модель, нам нужно предоставить начальные аннотации высокого качества. В следующем примере я аннотировал несколько сотен документов с помощью комбинации словарей, регулярных выражений и ручных аннотаций.

Обучение модели:

Сразу после того, как первоначальная аннотация сделана, я использую аннотированные вручную документы в качестве обучающих данных для создания модели spaCy NER непосредственно на UBIAI. Обученная модель будет использоваться для автоматической предварительной аннотации последующих документов (подробности можно найти в Документации). Модель ML поддерживает несколько языков, таких как английский, испанский, арабский и т. д.

  • Сначала нажмите «Создать новую модель» на странице моделей.
  • Выберите проект, в котором находятся ваши обучающие данные.
  • Выберите тип режима (в настоящее время поддерживает только текстовую аннотацию NER; извлечение отношений и классификация будут добавлены в ближайшее время), выберите язык и нажмите кнопку «Создать модель».

  • Далее у вас есть возможность обучить пустую модель или предварительно обученную модель spaCy. В зависимости от типов сущностей обучение предварительно обученной модели может дать более высокий балл.
  • Наконец, выберите соотношение обучения/проверки, количество итераций, процент отсева и размер пакета. Нажмите «Выполнить», чтобы начать тренировку — это так просто.

  • После того, как аннотация сделана, рассчитываются точность модели, полнота и баллы F, а также баллы для каждого объекта:

  • На этом этапе у вас есть возможность использовать только что обученную модель для автоматической аннотации остальных ваших документов или просто загрузить модель на свой компьютер для развертывания.

Вывод:

Обучение и оценка модели НЛП сразу после аннотирования без дополнительного кодирования позволяет проводить более быстрые итерации обучения, что приводит к более эффективному аннотированию данных.

В дополнение к модели NER, UBIAI добавляет пространственные модели извлечения отношений и классификации текста. Быть в курсе!

А пока загляните на страницу нашего блога, чтобы узнать, как применять НЛП для решения реальных бизнес-задач.

Если у вас есть какие-либо вопросы, не стесняйтесь задать их ниже или отправить нам электронное письмо по адресу [email protected].

Если вам понравилась эта статья, ставьте лайк и делитесь!

Следите за нами в Твиттере @UBIAI5