Команды почти во всех областях тратят большую часть своего времени на исследования и поиск фрагментов важной информации из огромного массива нефильтрованных данных и документов, которые присутствуют в организации. Этот процесс очень трудоемкий и утомительный.

В таких областях, как наука о данных и машинное обучение, получение аннотированных данных является одним из самых больших препятствий, на которое команды обычно тратят больше всего времени.

Кроме того, аннотация данных часто может оказаться дорогостоящей. Возможно, потребуется нанять несколько человек-аннотаторов, что может увеличить общую стоимость проекта.

Платформа DataNeuron позволяет организациям получать точные аннотированные данные, сводя к минимуму время, усилия и затраты.

Полуконтролируемая аннотация DataNeuron

Что предоставляет платформа?

Пользователю предоставляется возможность определить структуру проекта, которая не ограничивается плоской иерархией классификации, но может включать многоуровневую иерархическую структуру, а также неопределенные уровни родительско-дочерних отношений между узлами.

Это помогает исследованию, поскольку данные по существу разделены на группы и дополнительные подгруппы в зависимости от предпочтений пользователя и определенной структуры, что позволяет команде использовать подход «сверху вниз» для получения желаемых данных.

Платформа использует полуконтролируемый подход к аннотированию данных в том смысле, что от пользователя требуется аннотировать только около 5–10% всех данных, а платформа автоматически аннотирует оставшиеся данные для пользователя, обнаружение контекстного сходства и шаблонов в данных.

Как работает полууправляемый подход?

Даже для 5–10 % от общего объема данных, которые все еще необходимо аннотировать, затрачиваемое время и усилия значительно сокращаются за счет принятия метода проверки на основе предложений.

Платформа предоставляет пользователям автоматическую маркировку и предлагает абзацы, которые могут принадлежать к определенному классу, на основе эвристики меток и алгоритма контекстной фильтрации; пользователи должны принять или отклонить на этапе проверки.

Полуконтролируемый подход к валидации разбит на этапы:

  • На первом этапе пользователю предоставляются предложения, основанные на интеллектуальном алгоритме контекстной фильтрации. Проверки, выполненные пользователем на первом этапе, используются для повышения точности алгоритма фильтрации, используемого для предоставления предложений по проверкам.
  • На втором этапе валидация далее разбивается на «партии». Этот процесс повторяется для каждой партии второго этапа, т. е. проверки, выполненные в каждой партии, используются для повышения точности алгоритма фильтрации для последующей партии.

Это разбивает проблему аннотирования точки данных на проблему «один против всех», что значительно упрощает для пользователя получение ответа (аннотацию), чем если бы им приходилось рассматривать все классы (что может быть огромное количество в зависимости от сложности задачи) для изготовления каждой отдельной аннотации.

Наша платформа является платформой «без кода», и любой, у кого есть базовые знания в области, над которой они работают, может использовать платформу с максимальным потенциалом.

Тестирование на различных наборах данных

Платформа выбирает из нескольких моделей, обученных на одних и тех же обучающих данных, чтобы предоставить пользователям наилучшие возможные результаты.

Средняя точность K-Fold модели представлена ​​как окончательная точность обученной модели.

Мы подвергаемся относительно небольшому падению точности в результате уменьшения размера обучающих данных, как выделено. Это падение точности находится в пределах 12 % и может контролироваться пользователем путем аннотирования дополнительных данных или добавления исходных абзацев на этапе проверки или обратной связи и проверки.

Сравнение с собственным проектом

Мы наблюдаем, что платформа DataNeuron может сократить время аннотации до 98%. Это значительно сокращает время и усилия, затрачиваемые на аннотирование огромных объемов данных, и позволяет командам больше сосредоточиться на поставленной задаче.

Кроме того, это также может помочь сократить усилия эксперта по предметным вопросам до 96%, неся при этом предельные затраты. Наша платформа также помогает значительно снизить общую стоимость проекта, почти полностью устраняя необходимость в командах по маркировке/аннотации данных.

В большинстве случаев потребность в назначении SME также уменьшается, так как процесс аннотирования становится намного проще и легче, и любой, кто знаком с предметной областью и проектом, над которым он работает, может выполнять аннотации через нашу платформу.

Первоначально опубликовано на https://dataneuron.ai.