6 задач НЛП для обучения генерации данных

Получите контроль над ландшафтом обработки естественного языка! Начните свое путешествие в мир НЛП с этой Периодической таблицы из более чем 80 задач НЛП.

Русский химик Дмитрий Менделеев опубликовал первую Периодическую таблицу в 1869 году. Теперь пришло время организовать задачи НЛП в стиле Периодической таблицы!

Варианты и структура задач НЛП бесконечны. Тем не менее, вы можете подумать о построении конвейеров НЛП на основе стандартных задач НЛП и разделении их на группы. Но что влекут за собой эти задачи?

Объяснено более 80 часто используемых задач НЛП!

Группа 2: Генерация обучающих данных

8. Ручная аннотация

Старый добрый ручной труд. Аннотируйте предложение, абзац или документ для вашей задачи. Например: пометьте слово тегом части речи или тегом зависимости. Пометьте одно или несколько слов как именованный объект. Или пометьте последовательность слов тегом категории.

За прошедшие годы было разработано множество инструментов для аннотаций. Вот список с почти сотней инструментов для аннотаций. Многие из них имеют ужасно неэффективные пользовательские интерфейсы или активно не развиваются.

9. Аннотация с активным обучением

Может оказаться бесполезным создание обучающего набора данных для распознавания именованных объектов с 2000 аннотаций, включая 100 вхождений, где «Барак Обама» помечен как человек. Вы хотите аннотировать только предложения, в которых модель менее всего уверена в прогнозе.

При активном обучении модель сама выбирает, какие предложения следует выбрать для аннотирования. Другие предложения пропускаются, потому что модель более уверена в этих аннотациях.

Создатели spaCy создали инструмент для аннотирования Prodi.gy, основанный на активном обучении (видео ниже).

10. Поставщик обучающих данных

Золотые данные относятся к данным очень высокого качества, которые более или менее максимально приближены к истине. Это данные, которые вы хотите использовать при обучении новой языковой модели. Некоторые поставщики данных продают эти высококачественные наборы данных. Однако использование готового набора данных зависит от удобства использования данных. Это зависит от задачи НЛП, языка, домена и схемы тегов. Я скептически отношусь к использованию сторонних наборов данных, поскольку они почти никогда не соответствуют вашей цели. Если вы не используете его для задачи НЛП по умолчанию или в демонстрационных целях или в дополнение к вашему собственному набору обучающих данных.

Хорошая отправная точка для обзора наборов данных компаний и исследований для различных задач может быть найдена в базе данных Big Bad NLP.

11. Краудсорсинговая торговая площадка

Удаленных сотрудников часто нанимают для выполнения трудоемких задач, таких как создание наборов обучающих данных. Amazons Mechanical Turk (MTurk) является ведущей платформой для решения этой задачи. Работа определяется задачами человеческого интеллекта (HIT) и варьируется по продолжительности, сложности и оплате.

Работа на аутсорсинге — это здорово, но есть ограничения. Хотя MTurk часто считают дешевым решением для сбора данных, на самом деле существует много скрытых расходов. Вы должны быть очень точными в определении описаний HIT. Много усилий требуется для управления проектом и контроля качества.

Рекомендуется начать маркировку самостоятельно. Вы испытаете много проб и ошибок в схеме маркировки и определениях аннотаций и тегов. Продолжайте только в том случае, если вы уверены в своей схеме маркировки и применили ее для создания Proof-of-Concept. Итак, поэкспериментируйте и настройте определение обучающих данных самостоятельно, а затем масштабируйте до MTurk.

12. Увеличение текстовых данных

Количество доступных текстовых (обучающих) данных влияет на выполнение многих задач НЛП. Если сбор дополнительных данных невозможен, существуют различные методы повышения производительности вашей задачи НЛП.

Расширение данных — стандартная часть задач Computer Visions. Однако из-за грамматической структуры задача гораздо более деликатная для текстовых данных и генерации естественного языка.

Вот несколько примеров того, как текстовые данные преобразуются методами Easy Data Augmentation (EDA) и Back Translation:

Расширение данных может не помочь, но оно того стоит, если вы застряли. Что бы ты не делал; не проверять с дополненными текстовыми данными!

13. Данные обучения на основе правил

Решение для масштабирования ваших обучающих данных заключается в программном создании наборов обучающих данных без ручной маркировки. Идея состоит в том, чтобы определить эвристические правила, которые используются в функциях для маркировки обучающих данных.

Поскольку функции маркировки имеют неизвестные точности и корреляции, их выходные метки могут перекрываться и конфликтовать. Используя модель для автоматической оценки точности и корреляций, повторного взвешивания и объединения меток, вы можете создать окончательный набор чистых интегрированных меток обучения.

Цель состоит в том, чтобы использовать полученные помеченные точки обучающих данных для обучения модели машинного обучения, которая может обобщаться за пределы охвата функций маркировки. Этот учебник по Python использует для этой цели стэнфордскую библиотеку Snorkel. Вполне успешно, потому что вокруг концепции команда строит бизнес-решение.

Читайте следующую статью о Группе 3:

5 задач НЛП для разбора слов
Познакомьтесь с ландшафтом обработки естественного языка! Начните свое путешествие в НЛП с этой Периодической таблицы из 80+ НЛП…medium.com

ОБ ЭТОМ ПОСТЕ

Я попытался сделать Периодическую таблицу задач НЛП как можно более полной. Поэтому это больше для долгого чтения, чем некоторые автономные статьи в блогах. Я разделил 80 статей на группы периодической таблицы.

Другие статьи группы вы можете найти здесь!

Устройство и состав Периодической таблицы субъективны. Разделение задач и категорий можно было бы осуществить несколькими другими способами. Я ценю ваши отзывы и новые идеи в форме ниже. Я постарался сделать четкое и краткое описание для каждой задачи. Я опустил более глубокие детали, но предоставил ссылки на дополнительную информацию, где это возможно. Если у вас есть улучшения, вы можете отправить их ниже или связаться со мной в LinkedIn.

Пожалуйста, напишите мне, если у вас есть какие-либо дополнения!

Скачать Периодическую таблицу задач НЛП здесь!

Создайте свою собственную периодическую таблицу здесь!

ОБО МНЕ

Основатель @ innerdoc.com | НЛП эксперт-инженер-энтузиаст | Пишет о том, как получить значение из текстовых данных | Живет в Нидерландах

Не стесняйтесь связаться со мной в LinkedIn или подписаться на меня здесь, на Medium.