Самый утомительный и часто самый эффективный шаг в построении любой модели машинного обучения - это создание набора данных для обучения, проверки и тестирования вашей модели.

В этом руководстве вы изучите самый простой способ собрать и аннотировать набор данных компьютерного зрения в два этапа:

  1. Массовое извлечение изображений из Bing с помощью простой библиотеки Python
  2. Аннотируйте и экспортируйте свой набор данных с помощью инструмента Roboflow в браузере.

1) Загрузить изображения массово

Установите библиотеку bing-image-downloader с помощью следующей команды:

pip install bing-image-downloader

Затем создайте файл с именем black_lab_image_downloader.py и вставьте в него следующее:

from bing_image_downloader import downloader
downloader.download( 
  "Black Lab", #Query String
  limit=100,
  output_dir='black_lab_dataset',
  adult_filter_off=False,
  force_replace=False,
  timeout=60,
  verbose=True
)

Все, что для этого нужно, - это импортировать библиотеку в ваш программный файл python, а затем вызвать метод download с вашими параметрами поиска. Осталось настроить всего несколько параметров, о которых вы можете прочитать в репозитории github библиотеки. Эта команда выполнит поиск Bing со строкой запроса Black Lab и загрузит 100 изображений в каталог с именем black_lab_dataset.

Запустите файл, используя:

python3 black_lab_image_downloader.py

Вот и все!

2) Аннотируйте и экспортируйте свой набор данных с помощью Roboflow

Если у вас нет учетной записи, вам нужно будет ее создать, в противном случае войдите в систему и создайте новый проект:

Примечание. В этом руководстве я буду создавать набор данных для обнаружения объектов, но с помощью Roboflow вы также можете создавать наборы данных для классификации, обнаружения ключевых точек, семантической сегментации, сегментации экземпляров и других наборов данных.

Затем загрузите папку с изображениями, которые вы скачали, и можете приступить к аннотированию. Этот инструмент невероятно прост в использовании, и мне потребовалось 5 минут, чтобы аннотировать ~ 100 изображений.

В любое время вы можете перетащить или загрузить дополнительные файлы по мере необходимости и легко пометить изображения из набора данных, которые следует игнорировать, если они являются нежелательными (обратите внимание на непрозрачные записи ниже).

Когда вы закончите, нажмите Завершить загрузку, и вам будет предложено указать, как вы хотите разделить данные для обучения, проверки и тестирования:

При создании новой версии вашего набора данных вы также можете добавить предварительную обработку и расширение:

Наконец, вы можете экспортировать свой набор данных в различные форматы и загрузить в виде файла .zip или с помощью кода / командной строки:

И вы сделали!