8 минут чтения

Качество данных является одним из наиболее важных факторов при обучении алгоритмов. Как качество аннотации данных влияет на производительность алгоритма и, в частности, на его выходные данные? И какова цена неправильного понимания? Я укажу на наиболее распространенные ошибки аннотации и объясню их возможное влияние на производительность алгоритма.

Несмотря на все усилия по автоматизации аннотаций, процесс аннотирования данных по-прежнему является частично ручной задачей, выполняемой людьми с разным опытом, начиная от случайных людей в проектах массового аннотирования и заканчивая экспертами по маркировке в специализированных компаниях по аннотированию. Таким образом, большинство ошибок в аннотации вызваны людьми.

Наиболее распространенные ошибки аннотации объектов

За 4 года работы над проектами по аннотации с миллионами аннотаций аналитики «понимание.ай» выявили наиболее распространенные ошибки при маркировке объектов:

За 4 года работы над проектами по аннотации с миллионами аннотаций аналитики «понимание.ай» выявили наиболее распространенные ошибки при маркировке объектов:

  • Неправильный класс: объект классифицируется неправильно, например. транспортное средство обозначено как пешеход.
  • Неверный атрибут: состояние объекта описано неправильно, например. движущийся автомобиль помечается как припаркованный.
  • Отсутствует аннотация: объект не аннотирован, хотя должен быть.
  • Излишняя аннотация. Объект аннотируется, даже если он не должен быть
  • Неправильный размер аннотации: объект аннотирован недостаточно точно, не соответствует его фактическим размерам.
  • Неправильное положение аннотации: объект аннотирован недостаточно точно, не размещен в его фактическом положении.

Что происходит, когда в нейронную сеть поступают неправильно помеченные данные?

Все эти ошибки оказали бы значительное влияние на производительность модели искусственного интеллекта наших клиентов, если бы их не обнаружила наша команда обеспечения качества. И исследователи соглашаются. Для целей этого блога я пропущу различные методологии и подходы и сосредоточусь на результатах некоторых соответствующих исследований, проведенных для анализа результатов вышеупомянутых ошибок и измерений.

Неправильные классы

В литературе неправильные классы обычно определяются как шум класса (Zhu and Wu, 2004) или шум меток (Frenay and Verleysen, 2014). Для неправильно обозначенных классов эксперимент Fard et al. с 2017 года видит четкую зависимость от того, неправильно ли обозначен класс — беспристрастно или предвзято.

  • Непредвзятая неправильная маркировка определяется как "случайная" неправильная маркировка с равной вероятностью того, что класс будет случайно заменен любым другим классом.
  • Предвзятое неверное обозначение происходит, когда аннотатор путает класс с всегда одним и тем же классом, что приводит к постоянной замене.

Эксперимент показал, что а) неправильная маркировка в целом оказывает негативное влияние на эффективность, а b) предвзятая неправильная маркировка оказывает большее влияние на снижение эффективности классификации, чем беспристрастная неправильная маркировка. Фард и др. провел эксперимент с двумя моделями, одной сверточной нейронной сетью (CNN) и одним многослойным персептроном (MLP), тогда как CNN показала лучшие результаты, особенно при непредвзятой неправильной маркировке.

В эксперименте Flatow and Penner (2017) изучалась неправильная маркировка / субъективная маркировка и ее влияние на точность CNN. Результаты предполагают линейную корреляцию между шумом класса и точностью теста, где дополнительные 10% шума приводят к снижению точности на 4%. Дальнейшие эксперименты в литературе пришли к выводу о негативном влиянии класса шума и на другие алгоритмы машинного обучения, например. влияние на деревья решений, машины опорных векторов и k ближайших соседей (knn) (Nazari et al., 2018).

Чтобы быть справедливым по отношению к маркировщикам, неправильный класс не обязательно должен быть получен из-за неправильной маркировки. Изменение спецификаций в разгар проекта аннотации также может привести к изменению имени класса. Если изменение имени не сообщается должным образом, модель может интерпретировать данные по-другому, что в конечном итоге приведет к ухудшению результатов.

Неправильные атрибуты

Влияние неправильных атрибутов — или так называемого шума признаков на выходные данные модели — было всесторонне изучено Чжу и Ву (2004). Чжу и Ву считали, что шум атрибутов в значительной степени недостаточно изучен, в то время как шуму классов уделялось слишком много внимания. Они провели исследование, содержащее более 100 000 экземпляров, 2 класса, каждый с числом атрибутов в диапазоне от 0 до 60. Здесь был введен шум атрибутов, предполагающий ошибочные или субъективно установленные атрибуты, чтобы проверить влияние на классификацию.

Наиболее важными выводами Чжу и Ву из эксперимента были:

  1. Шум признаков не так вреден, как шум классов, но все же может привести к серьезным проблемам классификации.
  2. Чем выше корреляция между атрибутом и классом, тем более негативное влияние атрибут оказывает на классификатор.
  3. Устранение экземпляров, содержащих шум класса или очистку от шума, вероятно, повысит точность классификации.

Отсутствует аннотация

Эффект пропущенного, но релевантного объекта может иметь разные последствия в разных контекстах.

1. Модель, ориентированная только на метки

Модель учитывает только помеченные объекты в кадре. Если объект не помечен, для обучения будет представлено меньше данных.

2. Модель, ориентированная на ярлыки и более широкий контекст

Здесь будут рассматриваться не только помеченные объекты, но и другие вещи. Два примера:

  • Модель рассматривает весь кадр в качестве входных данных, поэтому она также просматривает непомеченные части, чтобы определить истинные и ложные негативы. Отсутствие аннотации для соответствующего объекта вызывает предположение, что, например. машина не машина, хоть и одна.
  • Отслеживание траектории: если автомобиль отслеживается на протяжении всех кадров, но не аннотируется на некоторых кадрах между ними, это может привести к ухудшению оценки траектории.

В статье Сюй и др. (2019) рассматривается влияние отсутствующих меток на полностью контролируемые модели обнаружения объектов. Эксперимент проводился на RCNN (CNN на основе региона), Faster-RCNN (CNN на основе Faster-Region), YOLO (вы смотрите только один раз), SSD (детектор одиночного выстрела) и WSOD (модель обнаружения объектов со слабым контролем).

Результаты показывают, что производительность всех методов FSOD значительно падает по мере увеличения пропускной способности (см. график ниже). Стоит отметить, что отсутствующие аннотации не повлияли на модель WSOD, тогда как в целом она страдает от низкой производительности обнаружения.

Изменение спецификаций маркировки может привести к появлению новых важных объектов. Если процесс маркировки старых данных уже завершен и забыли пометить заново, это также может привести к отсутствию аннотаций.

Избыточная аннотация

Я не нашел литературы, описывающей прямое влияние избыточных аннотаций на алгоритмы обнаружения объектов. Тем не менее, маркировка нерелевантных объектов — напрасная трата усилий. Объекты с ненужными метками являются потенциальным источником маркировки ошибок как неправильных классов или неправильных атрибутов.

Чтобы изменить ситуацию с изменяющимися спецификациями маркировки, можно вводить новые объекты, но также и удалять их. Первоначально релевантные объекты, удаленные из спецификаций, делают эти объекты неактуальными и пустой тратой времени и ресурсов.

Встроенные средства проверки качества этикетирования и обеспечения качества

Подводя итог вышеизложенному, можно сказать, что каждая частая ошибка оказывает особое влияние на качество данных и модель, обученную на этих данных. Вот почему встроенное качество маркировки в автоматизированное аннотирование и этап обеспечения качества являются важным шагом в каждом проекте аннотирования данных. Understand.ai может предоставить и то, и другое. Свяжитесь с нами для получения более подробной информации.

Стеффен Эндерес, менеджер по работе с клиентами в понимаю.ай

Этот блог основан на моей магистерской диссертации Повышение качества данных в проектах аннотирования за счет улучшения обработки спецификаций и дизайна — научный подход к дизайну, написанной в 2021 году для Технологического института Карлсруэ.

Ресурсы:

  • [Zhu and Wu, 2004] Zhu, X. и Wu, X. (2004). Шум класса против шума атрибута: количественное исследование. Артиф. Интел. Откр., 22:177–210.
  • [Френей и Верлейсен, 2014] Френей, Б. и Верлейсен, М. (2014). Классификация при наличии этикеточного шума: Обзор. IEEE Transactions on Neural Networks and Learning Systems, 25(5):845–869.
  • [Флатов и Пеннер, 2017] Флатов, Д. и Пеннер, Д. (2017). О стойкости коннетов к обучению на зашумленных метках.
  • [Назари и др., 2018] Назари, З., Назари, М., Даниш, М.С.С., и Канг, Д. (2018). Оценка влияния шума класса на производительность алгоритмов машинного обучения.
  • [Xu et al., 2019] Сюй М., Бай Ю., Ганем Б. и др. (2019). Отсутствуют метки при обнаружении объектов.

Первоначально опубликовано на https://understand.ai.