Подробное руководство по созданию пользовательского набора данных компьютерного зрения.

Компьютерное зрение — одна из крупнейших дисциплин машинного обучения с широким спектром применения и огромным потенциалом. Его цель — воспроизвести невероятные зрительные способности мозга. Алгоритмы компьютерного зрения не волшебные. Им требуется информация для работы, и они будут настолько эффективны, насколько сильна информация, которую вы предоставляете. В зависимости от проекта существуют различные источники для получения соответствующих данных.

Самый известный набор данных для обнаружения объектов — набор данных Common Objects in Context (COCO). Это обычно применяется для оценки эффективности алгоритмов компьютерного зрения. Набор данных COCO помечен, предоставляя информацию для обучения контролируемых систем компьютерного зрения, которые могут распознавать типичные элементы набора данных. Конечно, эти системы более чем безупречны, поэтому набор данных COCO служит базой для оценки прогресса систем с течением времени в результате исследований компьютерного зрения.

В этой статье мы обсудили формат файла Coco, стандарт для создания наборов данных компьютерного зрения, методов обнаружения объектов и изображений.

Почему нейронные сети действительно хорошо работают для компьютерного зрения?

Искусственные нейронные сети считаются основной подкатегорией машинного обучения, которая составляет основу методов глубокого обучения. Их происхождение и архитектура такие же, как у человеческого разума, и они работают как настоящие нейроны.

Поскольку изображения не всегда имеют метки, подметки для разделов и элементов должны быть удалены или уменьшены с умом, нейронные сети эффективно работают для компьютерного зрения. Информация об обучении используется нейронными сетями для обучения и повышения их эффективности с накоплением опыта. Но как только эти методы обучения были доведены до точности, они становятся огромными ресурсами в компьютерных технологиях и искусственном интеллекте, позволяя нам быстро классифицировать и систематизировать данные.

По сравнению с традиционной классификацией опытных ученых, действия по распознаванию голоса или изображения могут занять всего несколько минут, а не часов. Технология Google входит в число самых известных нейронных сетей.

Почему по-прежнему необходимо создавать пользовательский набор данных

Трансферное обучение — это особый метод машинного обучения, в котором модель, созданная для одной работы, применяется в качестве основы для модели для другой задачи. Учитывая огромные вычислительные и временные ресурсы, необходимые для создания систем нейронных сетей для таких задач, а также значительный скачок в опыте, который они обеспечивают для решения аналогичных проблем, это обычная стратегия в машинном обучении, в которой предварительно обученные системы используются. используется в качестве предварительного шага при обработке данных на естественном языке.

Мы можем справиться с этими случаями, используя трансферное обучение, в котором используются ранее помеченные данные из сопоставимой задачи или темы.

Coco File Format — это стандарт для создания наборов данных компьютерного зрения.

Анализ визуальной среды является основной задачей компьютерного зрения; он включает в себя определение того, какие элементы существуют, их локализацию в 2D и 3D, определение их свойств и описание их взаимосвязей. В результате набор данных можно было использовать для обучения методам распознавания и классификации предметов. COCO часто используется для проверки эффективности методов распознавания объектов в реальном времени. Современные модули нейронных сетей могут понимать структуру набора данных COCO.

Современные альтернативы, основанные на искусственном интеллекте, не совсем способны обеспечить полную точность результатов, что приводит к тому, что набор данных COCO является существенной отправной точкой для CV для обучения, тестирования, полировки и уточнения моделей для более быстрого масштабирования конвейера аннотаций.

Стандарт COCO определяет, как ваши аннотации и метаданные изображения сохраняются на диске на существенном этапе. Кроме того, набор данных COCO является дополнением к трансферному обучению, в котором материал, используемый для одной модели, используется для запуска другой.

Учебник по созданию набора данных компьютерного зрения с использованием Datatorch

Datatorch — один из бесплатных облачных инструментов для создания аннотаций. Это веб-платформа, на которую вы можете просто перейти и быстро начать аннотировать набор данных.

Шаг 0: обнаружение данных

Решение любой проблемы машинного обучения в первую очередь начинается с данных. Первый вопрос – какую проблему вы хотите решить. Тогда следующий вопрос, где я могу получить эти данные.

В моем случае (гипотетическом) я хочу построить модель машинного обучения, которая обнаруживает разных животных по фотографиям. Я беру эти изображения из Открытых изображений Google (гигантский набор данных). Я нахожу только часть собак и классифицирую их по соответствующим

Лицензии на наборы данных
Аннотации лицензируются компанией Google LLC по лицензии CC BY 4.0. Изображения указаны как имеющие лицензию CC BY 2.0. Создавая изображения под лицензией Creative Commons Attribution (CC-BY), Open Images может использоваться любым заинтересованным лицом.

Шаг 1. Создайте новый проект

После входа в систему вы увидите главный экран панели инструментов, показывающий ваши проекты и организацию. Это будет хорошо, когда вы пытаетесь работать над несколькими проектами в разных командах. Теперь в правом верхнем углу строки заголовка нажмите + и создайте новый проект.

Шаг 2. Встроенные данные

Затем перейдите на вкладку Dataset на левой панели навигации, нажмите +, чтобы создать новый набор данных с именем dogtypes. После этого вы можете легко удалить изображения

Или есть еще вариант прямого подключения к облачному хранилищу провайдера (AWS, Google, Azure)

Шаг 3. Начните комментировать

Если вы нажмете на любое изображение в наборе данных, это приведет вас непосредственно к инструменту аннотирования.

  • Инструменты аннотации Слева находятся инструменты аннотации, которые вы можете использовать в окне визуализатора в центре.
  • Набор данных: список всех изображений. Нажмите, чтобы аннотировать их.
  • Изменить/создать метки. Нажмите, чтобы изменить метку, связанную с аннотацией.
  • Подробности аннотации. После того, как вы добавите аннотацию к изображению, вы увидите подробности здесь.
  • Сведения об инструменте/конфигурация: когда вы выбираете инструмент для создания аннотаций, на нем отображаются сведения/конфигурация. Например, если вы выбрали кисть, вы можете изменить ее размер здесь.

Чтобы начать аннотирование, вы можете просто выбрать инструмент аннотирования из вариантов, это также зависит от типа модели, которую вы пытаетесь построить. Для модели обнаружения объектов хорошо использовать что-то вроде ограничивающего прямоугольника или инструмента круга, в противном случае для модели сегментации вы можете использовать инструмент кисти или инструмент суперпикселя на основе ИИ, чтобы выделить соответствующие пиксели. Например, я использовал простую кисть (увеличил размер), чтобы выделить собаку.

Кроме того, было бы лучше открыть аннотацию, попробовав, или вы можете посмотреть учебник на моем канале YouTube.

  • Шаг 4. Экспорт аннотированных данных в формат Coco

После того, как вы закончите аннотирование, вы можете перейти к экспорту и экспортировать этот аннотированный набор данных в формате COCO.

Выход в формате Коко

Результат работы с аннотациями теперь представлен в формате COCO, который состоит из 5 основных частей
- Информация
- Лицензия
- Категории (метки)
- Изображения
- Аннотации

Для получения подробной информации вы можете увидеть пример вывода ниже

Вывод

Если у вас нет опыта в обнаружении объектов и вам нужно создать совершенно новый набор данных, формат COCO — отличный вариант из-за его простой структуры и широкого применения. Структура набора данных COCO была исследована для наиболее распространенных задач: идентификации объектов и сегментации. Такие инструменты, как Datatorch, помогают довольно быстро создавать эти наборы данных. Наборы данных COCO — это крупномасштабные наборы данных, которые подходят для стартовых проектов, производственных сред и передовых исследований.

использованная литература

Ссылка на набор данных: https://storage.googleapis.com/openimages/web/index.html

Лицензия на набор данных: аннотации лицензируются Google LLC по лицензии CC BY 4.0. Изображения указаны как имеющие лицензию CC BY 2.0.

Первоначально опубликовано на https://anujsyal.com.