DataNeuron помогает ускорить и автоматизировать аннотирование с участием человека для разработки решений ИИ. Используя платформу, ориентированную на данные, мы автоматизируем маркировку данных, создание моделей и сквозное управление жизненным циклом машинного обучения.

Проглотить

Пользователи могут загружать все имеющиеся у них данные без какой-либо фильтрации для удаления абзацев, выходящих за рамки.

Данные могут быть загружены в различных форматах файлов, поддерживаемых платформой.

Платформа имеет встроенную функцию, которая может обрабатывать абзацы, выходящие за рамки, и отделять их от данных классификации. Эта функция не является обязательной и может быть включена или выключена в любое время в процессе.

Структура

Следующим шагом является создание структуры проекта.

Вместо простой плоской структуры с определенными только классами мы предоставляем пользователю возможность создать многоуровневую (иерархическую) структуру, чтобы он мог извлекать данные, сгруппированные в домены, поддомены, и бесконечно продолжать делить на дополнительные части в зависимости от на его потребности.

Любой из определенных узлов может быть помечен как класс для классификации данных независимо от уровня, на котором он находится в иерархии. Это обеспечивает гибкость для создания любого уровня онтологии для классификации.

Подтвердить

Пользователю не нужно просматривать весь набор данных, чтобы отсортировать абзацы, принадлежащие к определенному классу, и пометить их, чтобы предоставить обучающие данные для модели, что может быть утомительной и сложной задачей.

Мы предлагаем подход, основанный на проверке:

  • Платформа предлагает пользователям предложения абзацев, которые с наибольшей вероятностью принадлежат к определенной категории/классу, на основе эффективного критерия фильтрации на основе контекста.
  • Пользователь просто должен подтвердить предложения, т. е. проверить, является ли предложенный класс правильным.

Это значительно снижает усилия пользователя по отфильтровыванию абзацев, принадлежащих категории, из всего набора данных.

Техника стратегической аннотации позволяет пользователю использовать стратегию «один против всех», что значительно упрощает задачу по сравнению с необходимостью учитывать все определенные классы, которых может быть большое количество в зависимости от решаемой проблемы, в то время как пометка абзаца.

Наш интеллектуальный алгоритм фильтрации гарантирует, что абзацы «пограничного случая», т. е. абзацы, которые не имеют очевидной корреляции с классом, но все же принадлежат этому классу, не будут упущены.

Этот этап разбит на 2 этапа:

  • Проверка, выполненная пользователем на первом этапе, используется для определения предложений аннотаций, предлагаемых на втором этапе.
  • Каждая партия аннотаций используется для повышения точности алгоритма фильтрации для следующей партии.

Платформа также предоставляет итоговый экран после каждого пакета проверки, который дает пользователю представление о том, сколько еще абзацев ему может потребоваться проверить для каждого класса, чтобы достичь более высокой точности.

Это также помогает определить, когда остановить проверку для определенного класса и больше сосредоточиться на классе, для которого платформа демонстрирует низкую достоверность.

Поезд

Пользователь практически не прилагает усилий к этапу обучения модели, а обучение модели можно запустить простым нажатием кнопки.

Весь процесс обучения является автоматическим и включает в себя предварительную обработку, разработку функций, выбор модели, обучение модели, оптимизацию и проверку в k-кратном размере.

После обучения окончательной модели платформа показывает пользователю подробный отчет об обученной модели, который включает общую точность модели, а также точность, достигнутую для каждого класса.

Повторить

После обучения модели мы предоставляем пользователю 2 варианта:

  • Перейдите к этапу развертывания, если обученная модель соответствует их ожиданиям.
  • Если модель не дает желаемых результатов, пользователь может вернуться и предоставить больше обучающих абзацев (путем проверки большего количества абзацев или загрузки исходных абзацев) или изменить структуру проекта, чтобы удалить некоторые классы, а затем повторно обучить модель для достижения лучших результатов. .

Развертывание (служба прогнозирования без кода)

Помимо предоставления окончательных аннотаций к данным, загруженным пользователем с использованием обученной модели, мы также предоставляем услугу прогнозирования, которую можно использовать для прогнозирования любых новых абзацев в обмен на очень минимальную плату.

Это не требует каких-либо знаний в области кодирования, и пользователи могут использовать эту услугу для любых входных данных с платформы.

Это также можно интегрировать в другие платформы, используя открытый API прогнозирования или развернутый пакет Python.

Нет требований к специалисту по науке о данных/машинному обучению

DataNeuron ALP разработан таким образом, что для использования платформы с максимальным потенциалом не требуются предварительные знания в области науки о данных или машинного обучения.

Для некоторых очень специфических случаев использования может потребоваться эксперт по предметным вопросам, но для большинства случаев использования SME не требуется в конвейере DataNeuron.

Первоначально опубликовано на https://dataneuron.ai.