Проверка работоспособности данных — важный шаг в компьютерном зрении, который часто упускается из виду. Этот процесс включает проверку правильности, полноты и согласованности данных, используемых для обучения и тестирования моделей машинного обучения. Другими словами, это гарантирует точность и надежность данных. Без надлежащей проверки достоверности данных результаты моделей машинного обучения могут быть непредсказуемыми или даже вводящими в заблуждение.

CleanVision — это бесплатная библиотека, выпущенная cleanlab, которая может помочь с легкостью выполнить проверку работоспособности любого набора данных изображений.

CleanVision может автоматически обнаруживать несколько проблем, которые могут присутствовать в наборе данных изображения. Проблемы, поддерживаемые библиотекой на сегодняшний день, перечислены ниже,

  1. Размытое изображение / изображение не в фокусе
  2. Рядом с дубликатами
  3. Точные дубликаты
  4. Низкоинформационные изображения
  5. Недоэкспонированные/темные изображения
  6. Переэкспонированные/яркие изображения
  7. Изображения в оттенках серого
  8. Изображения с нечетным соотношением сторон.

С чего начать?

Библиотеку можно легко установить с помощью pip. Просто запустите следующую команду в своем терминале:

pip install cleanvision

После установки вы можете использовать CleanVision для анализа любого набора данных изображений.

Как пользоваться этой библиотекой, мы обсудим в следующем блоге.