Всякий раз, когда мы начинаем работать над любым проектом по науке о данных, данные являются отправной точкой. Это пища для любого проекта машинного обучения. Мы получаем данные, очищаем их, проводим базовый анализ и делаем на их основе какие-то выводы.
Итак, как мы получаем данные, или я должен сказать, каковы мои источники данных?
В целом источники данных делятся на два типа.
- 🌲Общедоступные данные
- 🌵Личные данные
Частные данные
Частные данные являются частными, то есть принадлежат какой-либо организации или компании. Никакое постороннее лицо или другая компания не могут получить к нему доступ. Эти данные используются компанией для внутренних целей или принятия внутренних бизнес-решений. Если к этим данным каким-либо образом получит доступ кто-то еще, кто ни в коем случае не имеет на это права, могут возникнуть большие проблемы.
Но если вы наняты этой компанией, чтобы помочь им с данными, вы можете получить к ним доступ, но все же ограниченным образом, или это зависит от них, какой доступ они вам предоставят.
Общедоступные данные
Эти данные открыты и не имеют ограничений, любой на этой планете может получить к ним доступ, чтобы использовать их в любом случае. В основном эти данные поступают от правительства или какой-либо некоммерческой организации. Для доступа к нему не требуется никаких специальных разрешений. Есть много методов или способов получить эти данные, но обычно их два.
- Веб-сайты (государственные или некоммерческие организации)
- Веб-скрейпинг (программное получение данных с веб-страниц)
Вот несколько хороших веб-сайтов, которые предоставляют данные
- Репозиторий машинного обучения UCI
- awesomedata/awesome-public-datasets: Тематический список открытых наборов данных HQ. (github.com)
- ДатаМит (github.com)
- Главная | Платформа открытых государственных данных (OGD) в Индии
- Найти открытые данные — data.gov.uk
Это на сегодня!! 😎