Оригинальные способы, с помощью которых технологические компании заставляют пользователей маркировать свои данные

Этот пост является частью серии, посвященной методам аннотирования высококачественных данных с помощью добровольных усилий пользователя. Ознакомьтесь со ссылками на введение и другие методы в нижней части этой статьи.

С учетом сказанного, приятного чтения.

9. Предоставляйте инструменты маркировки данных как услугу

Когда мы не можем заставить наших пользователей маркировать наши данные, мы должны использовать последнее средство: нанять несколько человек и заставить их просмотреть каждый фрагмент данных, маркируя его вручную. Это дорогая и не масштабируемая задача, но во многих случаях, особенно с учетом огромной зависимости между качеством данных и точностью прогноза, это просто единственный выход. Итак, как насчет облачных инструментов для маркировки? разве они не получают доступ из первых рук ко всем данным, которые пользователи маркируют для собственного использования?

Тип данных: явные данные

Тип маркировки:данные с явной маркировкой для целей обучения машинному обучению.

Примеры.Ограничивающие рамки, семантическая сегментация, текстовые отношения в таких инструментах для маркировки, как Восьмерка, Могучий ИИ, Annofab или LabelMe. .

Объяснение

Обучение данных как услуги (TDaaS) стало чем-то особенным. Высококачественные данные корпоративного уровня, предназначенные для обучения определенных моделей машинного обучения, необходимо выполнять на столь же специфичных наборах данных. Существует растущий рынок для такого рода решений, и в настоящее время его обслуживают такие компании, как Amazon с его Mechanical Turk, Crowdflower (теперь Figure Eight), Mighty AI или Playment. Такие компании, как Toyota, могут связаться с ними и запросить пакеты данных для создания таких функций продукта, как распознавание полосы движения или обнаружение пешеходов на основе изображений с передней камеры автомобиля. Так что подумайте об этом наборе данных. Вероятно, для этого требуются тысячи, если не сотни тысяч изображений с ограничивающими прямоугольниками вокруг определенных объектов, при различных сценариях освещения, из определенных географических регионов, при определенных погодных условиях и т. д. Это могло только усложниться настолько, что… вся промышленность. И я только что упомянул ограничивающие рамки на изображениях. Теперь подумайте о тексте. Применяется тот же принцип. Сотни тысяч предложений, связанных с эмоциями, которые они могут представлять, в качестве строительного блока для улучшения чат-бота службы поддержки с распознаванием эмоций из текста. Чтобы эта маркировка была эффективной, компании TDaaS создают свои собственные инструменты и пользовательские интерфейсы.

Сейчас эти компании переходят к лицензированию своих инструментов маркировки для третьих лиц, чтобы они могли их использовать напрямую. Это означает, что у Toyota теперь может быть компьютер внутри своего здания с Mighty Studio на нем (или подключенный к платформе цифры-восьмерки, Annofab или LabelMe), где они могут иметь персонал, маркирующий свои собственные изображения, следовательно, сокращение расходов Могущественного ИИ и Фигуры-Восьмерки на их сообщества.

Чего можно добиться с помощью этих размеченных данных?

Ну, если вы дочитали до этого места, мне, возможно, не придется много говорить здесь. Хотя я считаю важным прояснить здесь кое-что о конфиденциальности данных и собственности. Видите ли, инструменты маркировки лицензируются по схемам freemium, где неоплачиваемые уровни отказываются от всех прав на маркируемые данные. Таким образом, в зависимости от изменений владельца данных уровня и даже возможно локальное размещение инструментов. Поэтому на бесплатных уровнях логично предположить, что поставщик услуг будет использовать данные, аннотированные его инструментами, для улучшения обслуживания и обмена ими с третьими лицами. В этом смысле компании, занимающиеся секретными проектами или аннотирующие наборы данных, которые трудно воспроизвести, вероятно, выбирают дорогостоящие решения и надеются, что их данные и личность действительно защищены. С другой стороны, небольшие компании и исследовательские проекты сталкиваются с трудностями владения данными при использовании подобных инструментов. Поскольку данные и аннотации попадают в руки поставщика услуг вместе с соглашением об обслуживании, позволяющим им их использовать, я бы сказал, что лучше либо использовать платные сегменты решений для маркировки, либо использовать настраиваемые с открытым исходным кодом. альтернативы, которые могут быть реализованы самими исследователями.

Введение | 1. Схемы подключения P2P | 2. Системы голосования | 3. Категоризация контента | 4. Зрители | 5. Отслеживание результатов поиска | 6. Автозаполнение| 7. Прямой вопрос | 8. Исправление человеческих ошибок | 9. Инструменты маркировки данных

Сразу после👏 дождя подписывайтесь на нас в Medium, LinkedIn и Twitter.