Автоматическая маркировка данных для классификации текста

Для специалистов по машинному обучению (ML) одной из наиболее важных и типичных задач является полнотекстовая классификация (FTC) — метод, при котором вы назначаете набор категорий или тегов целой строке текст. То, как вы выполняете эту, казалось бы, простую задачу, напрямую влияет на то, как мы создаем и запускаем приложения на сайтах социальных сетей, новостях, сообщениях в блогах или онлайн-форумах, и это лишь некоторые из наиболее известных вариантов использования.

Согласно недавним оценкам, человечество ежедневно генерирует несколько квинтиллионов (правильно, число с восемнадцатью нулями!) байтов. До недавнего времени единственным подходом к пониманию, организации и фильтрации такого рода данных в масштабе было использование распределенных групп людей. Но есть ли более эффективный способ для специалистов по машинному обучению улучшить взаимодействие с пользователем и принимать разумные решения, когда быстрое и точное FTC является обязательным требованием проекта?

Ориентированный на данные подход к классификации текста

На самом базовом уровне ИИ = код + данные, и большая часть практики машинного обучения исторически строилась вокруг процесса разработки модели, повторяющей архитектуру, процедуры обучения, разработку функций и так далее. В этом сценарии мы рассматриваем данные как фиксированный компонент и фокусируемся только на модели для повышения производительности. Здесь маркировка исходных данных и итерации точности модели традиционно являются ручными задачами.

Более современный подход, ориентированный на данные, фокусируется на систематическом улучшении качества наборов данных для повышения точности выходных данных модели машинного обучения. Это работает, когда вы имеете дело с небольшими наборами данных, которые редко меняются. Но что делать, когда вам нужны репрезентативные выборки для огромных объемов данных с длинными хвостами или когда данные устаревают к тому времени, когда выборка совершенствуется?

Проблемы с ручными подходами

Прежде чем описывать более эффективный подход к FTC, стоит изучить, что именно делает ручной подход к маркировке данных проблемой, которую стоит решить. Вероятно, самое большое препятствие, с которым может сразу столкнуться большинство практиков ML, — это поиск и масштабирование ваших экспертов в предметной области (SME). Часто невозможно постоянно отдавать на аутсорсинг ручную маркировку по той простой причине, что передача знаний от ваших МСП к этикетировщикам чрезвычайно затруднена. Команды машинного обучения должны координировать навязчивую задачу по созданию учебных материалов, QA, процедур и т. д. для лейблеров, которые, вероятно, живут на разных континентах.

Даже если данные не очень специализированы, вы можете с уверенностью предположить, что при создании набора данных будет определенный уровень несоответствий. Это может быть вызвано несколькими причинами: личными предубеждениями этикетировщиков, оттоком персонала и задержками, связанными с пакетной обработкой, и это лишь некоторые из них. Кроме того, большие наборы данных с фиксированным бюджетом обычно требуют более длительного времени выполнения, которое не может угнаться за присущими модели отклонениями, особенно при высокой скорости передачи данных.

Программный подход

Программная маркировка — это процесс написания программ, которые присваивают метки частям вашего набора данных и применяют их к вашему проекту машинного обучения. Процесс начинается с выбора частей набора данных, которые прямо или косвенно связаны с метками, которые мы хотим произвести и/или вывести.

Вместо того, чтобы полагаться только на специалистов по данным и разработчиков программного обеспечения или даже на аутсорсинговых специалистов по маркировке, гораздо эффективнее использовать для обработки данных профильных экспертов (SME). По словам Jaidev Amrite (SparkCognition), для того, чтобы они могли быстро развернуть свой собственный специально созданный ИИ, необходим новый подход к обнаружению данных, инструментам, автоматизации и проверке.

Программная маркировка может хорошо подойти для вашего варианта использования, если вы имеете дело с большим объемом данных (десятки тысяч строк и выше), которые требуют определенного уровня знаний для маркировки и которые изменяются с относительно высокой скоростью, чтобы гарантировать решение. это не добавляет задержек в процесс маркировки. Конечно, специалисты по данным и инженеры машинного обучения могут написать свои собственные функции маркировки с нуля, но этот метод проб и ошибок требует много времени и ресурсов.

Разработка пошаговой маркировки

Вместо того, чтобы получать знания только из данных, мы можем поручить малым и средним предприятиям обучать машины. Они могут разбить любую проблему на более мелкие части и предоставить примеры для алгоритма для самостоятельного изучения задачи, обеспечивая объяснимую таксономию, которая является прокси для моделей глубокого обучения.

Давайте посмотрим, как это работает.

Во-первых, мы загружаем набор строк и разрабатываем функции прогностической маркировки для преобразования необработанных данных в обучающие данные путем изучения закономерностей в данных. Ключевым моментом является наличие простого в использовании интерфейса, ориентированного на то, чтобы сделать маркировку данных более эффективной и приятной. Вместо того, чтобы кодировать функции с нуля или писать регулярные выражения, SME вводят метки вручную в механизм предложений, реконструируя правильные функции маркировки, чтобы они соответствовали шаблонам в ручных метках.

Обратите внимание на разницу: вместо того, чтобы человек садился и кропотливо создавал функции маркировки для каждой отдельной сущности, вы можете попросить эксперта в предметной области сесть и нажать «Да» или «Нет». Или они могут обогатить несколько сотен отдельных строк метаданными, и система может генерировать функции прогнозной маркировки для набора данных, которые можно повторно использовать по мере необходимости, независимо от количества МСП, работающих над вашим проектом.

Это не только позволяет вам эффективно повторно использовать работу с остальной частью набора данных, но также предлагает помощь в случае, если вы обнаружите что-то не так с вашими данными или захотите предоставить документацию по шаблону решения модели. При ручной маркировке это означало бы недели или месяцы задержек и значительные дополнительные расходы.

Программная маркировка для классификации текста

Лучший способ увидеть ценность программного подхода к маркировке данных для классификации текста — найти реальные примеры. Как упоминалось выше, необходимо тщательно взвесить возможность затрат и времени. У моей команды была возможность применить этот подход на практике для ряда подходящих вариантов использования, что принесло измеримые результаты.

Команда специалистов по обработке и анализу данных Wilson Sonsini располагала большим массивом несекретных данных, потенциально содержащих важную информацию о типах работ, которые фирма предоставляет своим клиентам, но с ними было невероятно сложно справиться с помощью традиционной маркировки данных. подходит. Они создали алгоритм прогнозирования, который в конечном итоге был применен к большему набору связанных записей данных. Их SME провели два трехчасовых сеанса с командой, чтобы разработать автоматизированный конвейер и рабочий процесс для вновь созданных записей данных, что позволило получить дополнительную информацию.

A Proper High — это компания, занимающаяся нормализацией зашумленных и фрагментированных данных об электронной торговле каннабисом. Используя интерфейс Watchful, они смогли автоматизировать свою классификацию и извлечение информации. Одному инженеру потребовался всего один день, чтобы классифицировать всю свою библиотеку из более чем 200 000 продуктов с точностью более 99 %. Они сократили свою первоначальную оценку за 30 дней до менее чем 4 часов усилий.

Последние мысли

Не существует «серебряной пули» для того, как мы подходим к машинному обучению, только постоянные улучшения с каждой итерацией. Что мы знаем сегодня, так это то, что ручной подход к маркировке крупномасштабных обучающих наборов данных для вариантов использования классификатора — это тяжелая битва с неэффективностью, дрейфом модели, низким качеством, человеческими предубеждениями и отсутствием достаточного количества SME.

Программный подход к ключевым задачам может быть более эффективным как с точки зрения времени, так и с точки зрения денег, или он может открыть несостоятельные варианты использования. Мы должны найти мощные инструменты и оружие, чтобы быстро исследовать и определять лучшие данные для обучения моделей. Будущее дает экспертам «сверхспособности» по сравнению с устоявшимся способом ведения дел. Один из них заключается в том, чтобы эксперт пометил несколько образцов данных и позволил программному набору функций учиться на этих примерах, предлагая автоматический вывод обучающих данных.

О Бдительном

Watchful — это современное и интерактивное решение для НЛП, которое возвращает контроль над маркировкой данных в руки специалистов по обработке и анализу данных и специалистов по машинному обучению. Благодаря нашему масштабируемому подходу, ориентированному на данные, любой, от профильных экспертов до инженеров MLOps, может комплексно исследовать, классифицировать, аннотировать и проверять любой уникальный набор данных для поддержки современных инициатив и бизнес-процессов в области искусственного интеллекта. Решение Watchful для предприятий с самого начала устраняет узкие места в данных, связанные с ИИ, позволяя сделать итерационные процессы ИИ, от производства до развертывания, гораздо более рентабельными и масштабируемыми. Используйте Watchful в различных отраслях, таких как производство, розничная торговля, финансы, медико-биологические науки и т. д. Узнайте больше, посетив www.watchful.io.

Статья Шайана Моханти, соучредителя и генерального директора Watchful

Первоначально опубликовано на OpenDataScience.com

Читайте другие статьи по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от начального до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг. Вы также можете пройти обучение по науке о данных по запросу, где бы вы ни находились, с нашей платформой Ai+ Training. Подпишитесь также на нашу быстрорастущую публикацию на Medium, ODSC Journal, и узнайте, как стать писателем.