Проверка работоспособности данных — важный шаг в компьютерном зрении, который часто упускается из виду. Этот процесс включает проверку правильности, полноты и согласованности данных, используемых для обучения и тестирования моделей машинного обучения. Другими словами, это гарантирует точность и надежность данных. Без надлежащей проверки достоверности данных результаты моделей машинного обучения могут быть непредсказуемыми или даже вводящими в заблуждение.
CleanVision — это бесплатная библиотека, выпущенная cleanlab, которая может помочь с легкостью выполнить проверку работоспособности любого набора данных изображений.
CleanVision может автоматически обнаруживать несколько проблем, которые могут присутствовать в наборе данных изображения. Проблемы, поддерживаемые библиотекой на сегодняшний день, перечислены ниже,
- Размытое изображение / изображение не в фокусе
- Рядом с дубликатами
- Точные дубликаты
- Низкоинформационные изображения
- Недоэкспонированные/темные изображения
- Переэкспонированные/яркие изображения
- Изображения в оттенках серого
- Изображения с нечетным соотношением сторон.
С чего начать?
Библиотеку можно легко установить с помощью pip. Просто запустите следующую команду в своем терминале:
pip install cleanvision
После установки вы можете использовать CleanVision для анализа любого набора данных изображений.
Как пользоваться этой библиотекой, мы обсудим в следующем блоге.