Создание собственных наборов данных за несколько часов.

В этом посте перечислены ресурсы со сценариями, которые можно использовать для создания собственных наборов данных с текстом и изображениями. Со временем к этому посту будет добавлено больше материала.

Наборы данных изображений

Набор данных изображения дороги из Open Street Cam

Найдите здесь код

Этот ноутбук выполняет следующие функции:

  • Получите географические координаты вдоль дорог Нью-Йорка из файла формы улиц Нью-Йорка
  • Использует эти координаты для извлечения идентификаторов соответствующих треков из открытой уличной камеры.
  • Извлекает и сохраняет изображения из этих идентификаторов дорожек.

Набор данных изображения дороги из Google Street View

Найдите здесь код

Этот ноутбук выполняет следующие функции:

  • Получите географические координаты вдоль дорог в Нью-Йорке из файла формы улиц Нью-Йорка
  • Использует эти координаты для извлечения изображений из просмотра улиц Google

Получите лица с Flickr на основе геолокации

Найдите здесь код

Этот ноутбук выполняет следующие функции:

  • Получает изображения для мест, указанных ниже
  • Временное сохранение изображений во временном каталоге, указанном ниже.
  • Использует Dlib для фильтрации изображений с лицами
  • Сохраняет отфильтрованные изображения в обработанном каталоге
  • Каталог изображений создается для каждой из локаций.

Текстовые наборы данных

Сбор данных твита

Найдите здесь код

Этот ноутбук выполняет следующие функции:

  • Собирает данные Twitter из ограничивающей рамки географических координат, указанных ниже.
  • Выводит данные twitter в выходной файл json, указанный ниже.

Создать набор текстовых данных из статей Википедии по определенным темам.

Найдите здесь код

Этот ноутбук выполняет следующие функции:

  • Создает список интересных тем путем анализа json. (используйте свой собственный список)
  • Извлекает и сохраняет статьи из Википедии по темам

Другие

Получайте данные о компаниях с помощью Yelp

Найдите здесь код

Этот ноутбук выполняет следующие функции:

  • Загружает расположение баров на Манхэттене из файла
  • Использует географический поиск в Yelp API для определения панели и получения информации о цене и рейтинге.