Самый утомительный и часто самый эффективный шаг в построении любой модели машинного обучения - это создание набора данных для обучения, проверки и тестирования вашей модели.
В этом руководстве вы изучите самый простой способ собрать и аннотировать набор данных компьютерного зрения в два этапа:
- Массовое извлечение изображений из Bing с помощью простой библиотеки Python
- Аннотируйте и экспортируйте свой набор данных с помощью инструмента Roboflow в браузере.
1) Загрузить изображения массово
Установите библиотеку bing-image-downloader с помощью следующей команды:
pip install bing-image-downloader
Затем создайте файл с именем black_lab_image_downloader.py и вставьте в него следующее:
from bing_image_downloader import downloader downloader.download( "Black Lab", #Query String limit=100, output_dir='black_lab_dataset', adult_filter_off=False, force_replace=False, timeout=60, verbose=True )
Все, что для этого нужно, - это импортировать библиотеку в ваш программный файл python, а затем вызвать метод download с вашими параметрами поиска. Осталось настроить всего несколько параметров, о которых вы можете прочитать в репозитории github библиотеки. Эта команда выполнит поиск Bing со строкой запроса Black Lab и загрузит 100 изображений в каталог с именем black_lab_dataset.
Запустите файл, используя:
python3 black_lab_image_downloader.py
Вот и все!
2) Аннотируйте и экспортируйте свой набор данных с помощью Roboflow
Если у вас нет учетной записи, вам нужно будет ее создать, в противном случае войдите в систему и создайте новый проект:
Примечание. В этом руководстве я буду создавать набор данных для обнаружения объектов, но с помощью Roboflow вы также можете создавать наборы данных для классификации, обнаружения ключевых точек, семантической сегментации, сегментации экземпляров и других наборов данных.
Затем загрузите папку с изображениями, которые вы скачали, и можете приступить к аннотированию. Этот инструмент невероятно прост в использовании, и мне потребовалось 5 минут, чтобы аннотировать ~ 100 изображений.
В любое время вы можете перетащить или загрузить дополнительные файлы по мере необходимости и легко пометить изображения из набора данных, которые следует игнорировать, если они являются нежелательными (обратите внимание на непрозрачные записи ниже).
Когда вы закончите, нажмите Завершить загрузку, и вам будет предложено указать, как вы хотите разделить данные для обучения, проверки и тестирования:
При создании новой версии вашего набора данных вы также можете добавить предварительную обработку и расширение:
Наконец, вы можете экспортировать свой набор данных в различные форматы и загрузить в виде файла .zip или с помощью кода / командной строки:
И вы сделали!