Также читайте эту и многие другие статьи на https://www.lightly.ai/post/what-is-data-redundancy-in-computer-vision.

Что такое избыточные данные и почему их следует избегать? В этой статье эти вопросы будут рассмотрены в контексте компьютерного зрения на конкретных примерах. Показано, что избыточность данных отрицательно сказывается на точности модели и приводит к расточительному расходу ресурсов‍.

Что такое избыточность данных?

Избыточность данных часто означает наличие двух идентичных выборок данных в двух разных местах базы данных. Такой сценарий может быть случайным или преднамеренным, поэтому его последствия могут быть разными. (Технопедия, 2020)

Однако в этой статье основное внимание будет уделено несколько иному пониманию избыточности данных. Мы называем избыточные выборки близлежащими дубликатами в одном наборе данных. Действительно, эти данные настолько похожи, что не представляют большой ценности для набора данных. Далее избыточность данных оценивается в контексте других выборок в наборе данных (те 10%, которые вам не нужны). Таким образом, термин избыточный во многом зависит от разнообразия набора данных с точки зрения содержания, а также от задачи, для которой данные используются.

Одним из способов понимания избыточных данных является семантическая избыточность, которая была описана в предыдущем сообщении в блоге. В этом случае, когда выборки представлены в векторном пространстве, расстояния, разделяющие их, минимальны. Другими словами, они визуально очень похожи, как показано ниже.

Тем не менее, другие примеры избыточности данных включают сходство сцен между выборками, представления с похожими погодными условиями или представления одного и того же объекта. Ниже на двух изображениях показано сходство сцен, так как на обоих изображениях видны дворники, а также сходство погодных условий, поскольку оба изображения были сделаны в дождливые дни.

Избыточность данных — это проблема, с которой часто сталкиваются инженеры, работающие с видеоданными для задач машинного обучения. Действительно, видео разбивается на отдельные кадры, которые затем можно рассматривать как изображения. Однако, в отличие от отдельных изображений, которые намеренно делаются в определенные моменты, видеокамеры продолжают записывать и фиксировать моменты с небольшими отклонениями. Чтобы проиллюстрировать это, можно представить себе автомобиль, записывающий видеозаписи улиц для обучения автономному транспортному средству. Когда автомобиль останавливается позади другого автомобиля на красный свет или когда он едет один по прямому шоссе, захваченные кадры почти идентичны.

В статье 10%, которые вам не нужны показано, что в нескольких общедоступных наборах данных, таких как CIFAR-10 или ImageNet, содержится не менее 10% избыточных выборок. Если распределение классов в наборе данных асимметрично или чрезмерное количество наборов данных является избыточным, может возникнуть дисбаланс, который, в свою очередь, может привести к систематической ошибке. Следующий раздел этого сообщения в блоге затрагивает эту тему, представляя причины, по которым следует избегать избыточности данных.

Зачем сокращать количество избыточных данных?‍

Излишние изображения или видеокадры могут иметь следующие последствия:

  • Негативные последствия для модели

На производительность модели сильно влияют данные, на которых она обучается. Если вы снабдите модель избыточными данными, модель будет хорошо работать в этих конкретных ситуациях, но ей будет не хватать опыта для других. Действительно, это связано с тем, что некоторые типы данных представлены чрезмерно, а другие представлены недостаточно, и, таким образом, обучение модели на избыточных выборках отрицательно влияет на обобщение и точность модели. Поэтому оптимизированный выбор данных имеет решающее значение для максимального снижения избыточности. На рисунке ниже средняя точность модели, полученная при использовании стандартных стратегий выборки (обозначенных как другие), сравнивается со средней точностью алгоритма выборки на основе разнообразия Lightly, который активно исключает избыточные выборки. На графике показано, что удаление похожих данных может повысить среднюю точность или точность модели.

‍В другом эксперименте, проведенном Lightly, было показано, что наилучшая точность теста была достигнута при обучении модели на 90 % данных, выбранных Lightly, по сравнению с моделью, обученной на 100 % набора данных или на 90 % с использованием методов случайной выборки. Подробнее об этом читайте в предыдущем сообщении в блоге.

  • Напрасно потраченные ресурсы

Драгоценные ресурсы, такие как время и деньги, тратятся впустую на избыточные данные. Во-первых, много времени и финансовых ресурсов тратится на маркировку наборов данных. Таким образом, маркировка ненужных образцов неэффективна и затратна. Во-вторых, ресурсы вычислений и обработки могут быть потрачены впустую на избыточные данные. Как правило, по мере того как необработанные данные проходят через типичный конвейер машинного обучения (на фото ниже), задачи, связанные с данными, становятся более трудоемкими и дорогостоящими, если наборы данных больше из-за избыточных выборок.

Этот блог описывает проблему избыточности данных в области компьютерного зрения, (1) предоставляя определение концепции и (2) аргументируя, почему этого следует избегать. Подробнее о том, как Lightly помог AI Retailer System удалить лишние данные о покупателях в магазинах, можно прочитать здесь.

Автор: Сара Мейбом

Спасибо команде Lightly за прочтение черновика этого сообщения в блоге.