Фокус на распознавании именованных объектов
spaCy сыграл важную роль в том, чтобы сделать НЛП доступным, предоставив всеобъемлющие и богатые функциональные возможности, которые просты в использовании даже для неспециалистов по машинному обучению.
Она стала популярной библиотекой для всех практиков НЛП и станет более распространенной в будущем, поскольку интегрируется с другими популярными библиотеками, такими как Huggingface.
В этом руководстве я покажу вам, как обучить пользовательскую модель NER spaCy для автоматической маркировки ваших данных для контролируемого обучения с помощью инструмента текстовых аннотаций UBIAI.
Аннотация данных:
Автоматическое аннотирование путем обучения модели машинного обучения является ключевой функцией любого проекта аннотирования, поскольку оно значительно сокращает время аннотирования и делает задачу аннотирования менее сложной для человека. Аннотатору нужно будет только сделать бинарный выбор между правильной и неправильной аннотацией. Но прежде чем обучать модель, нам нужно предоставить начальные аннотации высокого качества. В следующем примере я аннотировал несколько сотен документов с помощью комбинации словарей, регулярных выражений и ручных аннотаций.
Обучение модели:
Сразу после того, как первоначальная аннотация сделана, я использую аннотированные вручную документы в качестве обучающих данных для создания модели spaCy NER непосредственно на UBIAI. Обученная модель будет использоваться для автоматической предварительной аннотации последующих документов (подробности можно найти в Документации). Модель ML поддерживает несколько языков, таких как английский, испанский, арабский и т. д.
- Сначала нажмите «Создать новую модель» на странице моделей.
- Выберите проект, в котором находятся ваши обучающие данные.
- Выберите тип режима (в настоящее время поддерживает только текстовую аннотацию NER; извлечение отношений и классификация будут добавлены в ближайшее время), выберите язык и нажмите кнопку «Создать модель».
- Далее у вас есть возможность обучить пустую модель или предварительно обученную модель spaCy. В зависимости от типов сущностей обучение предварительно обученной модели может дать более высокий балл.
- Наконец, выберите соотношение обучения/проверки, количество итераций, процент отсева и размер пакета. Нажмите «Выполнить», чтобы начать тренировку — это так просто.
- После того, как аннотация сделана, рассчитываются точность модели, полнота и баллы F, а также баллы для каждого объекта:
- На этом этапе у вас есть возможность использовать только что обученную модель для автоматической аннотации остальных ваших документов или просто загрузить модель на свой компьютер для развертывания.
Вывод:
Обучение и оценка модели НЛП сразу после аннотирования без дополнительного кодирования позволяет проводить более быстрые итерации обучения, что приводит к более эффективному аннотированию данных.
В дополнение к модели NER, UBIAI добавляет пространственные модели извлечения отношений и классификации текста. Быть в курсе!
А пока загляните на страницу нашего блога, чтобы узнать, как применять НЛП для решения реальных бизнес-задач.
Если у вас есть какие-либо вопросы, не стесняйтесь задать их ниже или отправить нам электронное письмо по адресу [email protected].
Если вам понравилась эта статья, ставьте лайк и делитесь!
Следите за нами в Твиттере @UBIAI5