Введение

По мере того, как ИИ становится более точным и доступным, его внедряют почти все компании, которые хотят использовать данные для обучения алгоритмов, а не пытаться писать их алгоритмическим способом. Спрос на данные и помеченные данные постоянно растет из-за характера моделей ИИ, которые учатся на примерах и адаптируются к постоянно меняющемуся характеру данных и требованиям своих областей. Хотя методы сбора данных могут давать большие объемы данных, они должны быть очищены, классифицированы и аннотированы этикетировщиками для достижения высокой точности в процессе, который часто является дорогостоящим, трудоемким и трудно масштабируемым.

Стандарт рынка

Стандарт для большинства компаний, занимающихся этикетированием, в этой отрасли более или менее одинаков. Традиционно он включает этап общего обучения, на котором работники обучаются использованию передовых инструментов для аннотирования данных всех типов, за которыми следуют учебные занятия для каждой новой области. набор данных. Это приводит к утомительной и трудоемкой работе.

После этих длительных этапов (некоторые компании занимают до 2 недель!), этикетировщики работают и периодически проверяют качество. При этом возникают три основные проблемы: найм, обучение и масштабирование (вверх и вниз) большого количества людей.

Концепция

Дарвинистский подход к маркировке данных

Подобно эволюции человека, tasq.ai превратился в уникальный дарвинистский подход, включив методологию «выживания наиболее приспособленных» в маркировку данных.

Как и в случае со спортом и играми, некоторые из нас более талантливы, чем другие, и хотя для одних бросить мяч в корзину может быть тривиально, для других могут потребоваться годы тренировок. Мы верим и доказали, что некоторые люди, сталкиваясь с задачами навешивания ярлыков, естественно лучше других. Проводя многочисленные тесты на огромном количестве пользователей мобильных и игровых платформ, мы можем использовать данные тех, кто достаточно здоров, чтобы «выжить», и определить ДНК лучших аннотаторов.

Микрозадачи как гены для маркировки данных

Как и в биологии, чтобы понять генетический состав организма, вам необходимо секвенировать его основные строительные блоки и понять, какие гены они формируют. Чтобы лучше понять возможности аннотаторов, нам нужно разбить их на наименьшие возможные строительные блоки, чтобы ранжировать их отдельно. В результате мы построили весь процесс маркировки на основе рабочих процессов, состоящих из микрозадач. Каждая задача проста для выполнения и тестирования и обычно относится к небольшому объему данных. Примерами микрозадач могут быть обнаружение простых объектов, классификация изображений или ограниченных объектов.

Назначая пользователей для разных типов задач и вариантов использования, мы измеряем их показатели успеха и лучше понимаем их «генетическую» структуру. В свою очередь, мы переводим собранные данные и строим модели на основе ДНК производителей этикеток.

Разделение процесса аннотирования на рабочий процесс небольших задач позволяет нам однозначно назначать даже самые сложные задачи повседневным/случайным игрокам. Поскольку каждый из них играет лишь небольшую роль в процессе, объем обучения сокращается с нескольких дней до нескольких минут.

Метод

Консенсус — каждый шаг на пути

В то время как масштаб является большим преимуществом, полученным благодаря способности охватить огромное количество пользователей, основным недостатком является отсутствие согласованности; фактор, который имеет решающее значение для создания высококачественных наборов данных. Разделив работу на уровне микрозадач, чтобы на каждом этапе собирать множество мнений от разных пользователей, мы можем достичь консенсуса на детальном уровне и обнаружить проблемы с маркировкой, не запуская ручной процесс контроля качества. После обнаружения система автоматически запрашивает дополнительные оценки, пока не будет достигнут консенсус. С помощью микрозадач объединение этих суждений осуществляется уникальным образом для каждого вида задач и для каждого отдельного варианта использования; например, слияние ответов «да/нет» отличается от слияния полигонов, созданных разными пользователями.

Использование рекламы для создания наборов данных

Хотя реклама повсеместно используется для увеличения продаж за счет конверсий, мы используем ее для создания высококачественных наборов данных в масштабе. Разделив сложные рабочие процессы аннотаций на простые микрозадачи, мы можем упаковать их в игровые рекламные блоки, такие как интерактивная реклама, и воспользоваться огромным масштабом, который он нам предлагает. Наши рекламные блоки построены на HTML5 и могут работать на любом устройстве, от смартфонов до планшетов и ПК. В зависимости от сложности и размера изображений мы можем использовать различные устройства для выполнения этих задач.

Валидация производственных моделей

Пока одни компании находятся на стадии разработки, другие уже используют модели в производстве. Чтобы обеспечить правильность прогнозов и предотвратить дрейф модели с течением времени, мы разработали процесс не только для создания наборов данных, но и для их проверки. В рамках этого процесса мы получаем аннотированные наборы данных и, реализуя другой набор микрозадач, просим пользователей указать на проблемы с данными, которые впоследствии можно использовать для понимания ограничений и слабых мест модели, что помогает группам данных сократить расходы за счет сосредоточив свои усилия на аннотации и отборе данных.

Справедливость и предотвращение предвзятости в ИИ

Одной из основных проблем, с которыми сталкиваются разработчики ИИ, является предвзятость. Тот факт, что модели обучаются на примерах, означает, что их прогнозы будут основываться только на субъективной точке зрения. Хотя использование опытных и последовательных аннотаторов может помочь моделям быстрее сходиться, это также приводит к нежелательной систематической ошибке, особенно при сборе суждений на основе субъективных или трендовых данных. Используя многонациональную и разнообразную толпу, мы достигаем консенсуса на более высоком уровне достоверности и собираем голоса людей с разной демографией и качествами.

Подрыв интернет-экономики

Tasq как альтернативная валюта

Поставщики потокового контента, такие как Netflix и Spotify, взимают плату с пользователей за свои услуги, однако они всегда привязаны к банковской системе и компаниям, выпускающим кредитные карты. Tasq предлагает альтернативный способ оплаты, основанный на работе, проделанной комментаторами для разблокировки контента из таких сервисов с помощью смартфона, независимо от страны, в которой они живут, а также от того, есть ли у них банковский счет или кредитная карта.

Tasq меняет представление издателей о том, как издатели измеряют пожизненную ценность (LTV)

Природа рекламы заключается в том, чтобы направлять трафик на другие страницы или приложения и конвертировать их. Конверсия засчитывается, когда пользователь совершил покупку, а это означает, что шансы на другую конверсию значительно уменьшаются, что требует от издателя привлечения нового трафика для увеличения продаж. В результате LTV пользователя уменьшается вместе с количеством увиденной им рекламы.

Блоки Tasq Ad работают противоположным образом; чем больше рекламы видят пользователи, тем более обученными они становятся. В результате коэффициенты конверсии со временем увеличиваются, принося большую ценность издателю и в то же время снижая стоимость покупки нового трафика.