Всякий раз, когда мы начинаем работать над любым проектом по науке о данных, данные являются отправной точкой. Это пища для любого проекта машинного обучения. Мы получаем данные, очищаем их, проводим базовый анализ и делаем на их основе какие-то выводы.

Итак, как мы получаем данные, или я должен сказать, каковы мои источники данных?

В целом источники данных делятся на два типа.

  • 🌲Общедоступные данные
  • 🌵Личные данные

Частные данные

Частные данные являются частными, то есть принадлежат какой-либо организации или компании. Никакое постороннее лицо или другая компания не могут получить к нему доступ. Эти данные используются компанией для внутренних целей или принятия внутренних бизнес-решений. Если к этим данным каким-либо образом получит доступ кто-то еще, кто ни в коем случае не имеет на это права, могут возникнуть большие проблемы.

Но если вы наняты этой компанией, чтобы помочь им с данными, вы можете получить к ним доступ, но все же ограниченным образом, или это зависит от них, какой доступ они вам предоставят.

Общедоступные данные

Эти данные открыты и не имеют ограничений, любой на этой планете может получить к ним доступ, чтобы использовать их в любом случае. В основном эти данные поступают от правительства или какой-либо некоммерческой организации. Для доступа к нему не требуется никаких специальных разрешений. Есть много методов или способов получить эти данные, но обычно их два.

  • Веб-сайты (государственные или некоммерческие организации)
  • Веб-скрейпинг (программное получение данных с веб-страниц)

Вот несколько хороших веб-сайтов, которые предоставляют данные

Это на сегодня!! 😎