Я только что прочитал эту замечательную статью из На пути к науке о данных, автор представил 5 различных методов сбора данных.

Они есть:

  1. Общедоступные наборы данных с открытыми метками
    Нам не нужно маркировать эти изображения с нуля, мы можем сэкономить время на точной настройке нашей модели с помощью этих наборов данных с метками. >
  2. Очистка Интернета
    Я попробовал этот метод в прошлом году, я загрузил более 1000 изображений из Google Images с помощью скрипта Python. Вы можете поискать скрипты на GitHub по этой теме.
  3. Фотосъемка
    Если в Интернете недостаточно целевых изображений, вам, вероятно, следует сделать фотографии для создания собственного набора данных, это самый трудоемкий метод из этих 5 методов. И не забывайте об этом, как только вы закончите свое путешествие по фотосъемке, вам все еще нужно НАЗВАТЬ эти изображения 😂😂😂
  4. Увеличение данных
    Это сложнее, чем парсинг в Интернете, но я думаю, что это не так сложно. Нам просто нужно настроить фотографию с помощью OpenCV или Pillow для увеличения.
  5. Генерация данных
    На данный момент самая сложная техника, которую вы можете использовать, — написать собственную GAN (генеративно-состязательную сеть) для создания образов из DeepLearning.