Идея науки о данных

5 отличных открытых наборов данных для вашего следующего проекта по науке о данных/машинному обучению

Наряду с идеями проекта, чтобы вы начали

Независимо от того, являетесь ли вы тем, кто только начинает заниматься наукой о данных, или опытным специалистом по обработке данных, который ищет свой следующий проект, может быть сложно найти интересный набор данных для измельчения — вот 5, которые привлекли мое внимание, и некоторые рекомендации проекта.

1. ВК, стартапы и собранные деньги

Venture Studio выпустила набор данных в удобном формате CSV с двумя вкладками — одна о венчурных капиталистах, а другая о поддерживаемых ими стартапах. Это хороший компактный набор данных с 370 венчурными капиталистами и 1700 стартапами и всего несколькими столбцами в каждой таблице, что очень удобно для новичка (возможно, с предпринимательской жилкой?).

Идеи проекта:

  • Основываясь на годах основания венчурных капиталистов, были ли определенные регионы мира, в которых за последнее десятилетие открылось больше фабрик стартапов?
  • Есть ли определенные регионы, в которых больше сотрудников ВК, чем в других? Или это больше связано с годом основания?
  • Какие отрасли имеют наибольшее финансирование? Что касается стартапов, которые были приобретены или IPO, есть ли какие-либо тенденции в регионе, фабрике стартапов, количестве сотрудников, фабрике стартапов и т. д.?
  • Какие студии выделили больше всего средств? Есть ли связь между годом основания и привлеченными деньгами?
  • Можете ли вы предсказать, сколько стартапов будет профинансировано в ближайшие годы/где они будут расположены/сколько денег они получат?

2. Потребительские финансы в Америке

Федеральная резервная система США проводит Обзор потребительских финансов каждые 3 года, задавая семьям вопросы о доходах, сбережениях, кредитах, пенсиях, активах, демографии и многом другом. Самый последний выпуск охватывает почти 6000 семей в период с мая 2019 года по апрель 2020 года. Помимо публикации данных (гиперссылка в заголовке), они предоставляют краткое изложение некоторых отмеченных ими тенденций.

Идеи проекта:

  • Посмотрите, сможете ли вы воспроизвести тенденции, отмеченные Федеральной резервной системой — есть ли какие-либо проблемы, которые вы можете найти в их методах или выводах?
  • Основываясь на том факте, что доходы не поспевают за инфляцией в течение последних двух лет, какие прогнозы вы можете сделать относительно общего благосостояния опрошенных семей? Как изменения влияют на разные демографические группы?
  • ФРС также ведет исторические записи Обзора потребительских финансов — можете ли вы объединить наборы данных и найти какие-либо интересные тенденции? Что вы можете предсказать о будущем семейных финансов в США?

3. Самые любимые технические продукты

Этот набор данных включает все продукты из карты сайта Product Hunt за период с 01.01.2014 по 31.12.2021, что охватывает более 76 000 продуктов. Для тех, кто не знает, Product Hunt — это сайт, на котором пользователи могут делиться и продвигать технологические продукты, которые им понравились (некоторые примеры коллекций ниже). Набор данных содержит такие сведения, как время запуска инструмента, его рейтинг, категорию и различные теги.

Идеи проекта:

  • Какие категории самые популярные? Какой самый популярный продукт в каждой категории?
  • Есть ли общие теги популярных продуктов?
  • Есть ли связь между датой выпуска и популярностью? Например. Являются ли продукты, выпущенные в декабре, более популярными, потому что у людей есть возможность попробовать их в праздничные дни?
  • Как изменились популярные категории с течением времени? Можете ли вы сделать какие-либо прогнозы относительно будущей популярности категорий?

4. Анализ задач 10 лет

Это, пожалуй, самый причудливый (и самый личный) набор данных, который я могу предложить — инженер-программист по имени Ренцо Боргатти отслеживал свои ежедневные задачи в Pomodoros в течение 10 лет с 2009 по 2019 год. Он заранее пометил их темой, своими оценками, и сколько времени на самом деле заняла задача. Спойлер — он выполнил чуть меньше половины того, что предсказал (не представляю, что это говорит о моей продуктивности).

Идеи проекта:

  • Были ли определенные категории задач, которые он предсказывал хуже?
  • Улучшался ли прогноз Боргатти со временем или ухудшался, или он был относительно стабильным? Основываясь на этих выводах, можете ли вы предсказать месяц/год, когда его прогнозы будут соответствовать его продуктивности?
  • Есть ли какие-либо изменения, которые вы бы внесли в будущее отслеживание, чтобы получать больше интересной информации? Какие поля вы бы начали включать?

5. Всемирная база данных по ценам на выбросы углерода

Этот набор данных содержит информацию о механизмах ценообразования на выбросы углерода (налоги на выбросы углерода или торговля квотами на выбросы углерода), введенных во всем мире с 1990 г. их отраслевой (и топливный) охват, а также соответствующий ценовой сигнал. Круто, что они собрали данные по каждой стране, а также по избранной группе субнациональных юрисдикций (например, по штатам США, канадским провинциям и территориям).

Идеи проекта:

  • Какие страны первыми внедрили механизмы ценообразования на выбросы углерода? Как менялось усыновление с течением времени? Какой период был наиболее популярен/было ли это связано с какими-либо международными событиями?
  • Какие цены на выбросы углерода мы можем предсказать в будущем? Будет ли это соответствовать международным целям?

Я надеюсь, что это была полезная отправная точка для некоторого анализа данных, но я хотел бы услышать от вас больше о наборах данных, которые вы нашли интересными, и / или о других вопросах, на которые вы хотели бы получить ответы по этим наборам данных!