Я только что прочитал эту замечательную статью из На пути к науке о данных, автор представил 5 различных методов сбора данных.
Они есть:
- Общедоступные наборы данных с открытыми метками
Нам не нужно маркировать эти изображения с нуля, мы можем сэкономить время на точной настройке нашей модели с помощью этих наборов данных с метками. > - Очистка Интернета
Я попробовал этот метод в прошлом году, я загрузил более 1000 изображений из Google Images с помощью скрипта Python. Вы можете поискать скрипты на GitHub по этой теме. - Фотосъемка
Если в Интернете недостаточно целевых изображений, вам, вероятно, следует сделать фотографии для создания собственного набора данных, это самый трудоемкий метод из этих 5 методов. И не забывайте об этом, как только вы закончите свое путешествие по фотосъемке, вам все еще нужно НАЗВАТЬ эти изображения 😂😂😂 - Увеличение данных
Это сложнее, чем парсинг в Интернете, но я думаю, что это не так сложно. Нам просто нужно настроить фотографию с помощью OpenCV или Pillow для увеличения. - Генерация данных
На данный момент самая сложная техника, которую вы можете использовать, — написать собственную GAN (генеративно-состязательную сеть) для создания образов из DeepLearning.