Программирование
Прочтите CSV-файл из Интернета прямо в свой код
Используйте такие функции, как download.file (), read.csv () и pd.read_csv (), чтобы прочитать файл CSV из Интернета непосредственно в код R или Python.
Вступление
Прежде чем проводить какой-либо анализ данных, нам в первую очередь необходимо иметь надежный источник данных. Одним из надежных источников данных являются данные из Интернета. Существует так много веб-сайтов, на которых можно получить наборы данных для анализа или построения моделей. Данные поступают в различных форматах, таких как числовые данные, текстовые данные, голосовые данные, данные изображения или видеоданные. В этой статье мы сосредоточимся на числовых данных, хранящихся в формате файлов с разделителями-запятыми (CSV).
Некоторые примеры бесплатных наборов данных, хранящихся в файлах CSV, которые можно загрузить для анализа, включают следующее:
а) Репозиторий машинного обучения Калифорнийского университета в Ирвине (UCI)
В настоящее время UCI поддерживает 487 наборов данных в качестве услуги для сообщества машинного обучения, которые можно использовать для практики анализа данных, домашних заданий и проектов на курсах и семинарах по науке о данных.
б) Наборы данных Kaggle
Наборы данных Kaggle также содержат множество наборов данных для очень сложных проектов в области науки о данных и машинного обучения.
в) GitHub
GitHub содержит тысячи репозиториев с готовыми наборами данных, которые легко доступны для загрузки.
В этом руководстве мы покажем, как загрузить файл: Introduction_to_physics_grades.csv из следующего репозитория GitHub: https://github.com/bot13956/datasets.
Метод 1. Использование функции download.file () в R
Используйте функцию setwd (), чтобы выбрать каталог, в котором следует сохранить файл:
setwd(“C:\\Users\\btayo\\Desktop\\grade_classifier”)
Затем используйте функцию download.file (URL, filename), чтобы загрузить файл. Здесь URL (унифицированный указатель ресурса) - это строка, содержащая URL-адрес исходного файла, а filename - имя файла назначения.
Примечания по предоставлению правильного URL
Если вы перейдете в репозиторий GitHub https://github.com/bot13956/datasets и щелкните файл: i ntroduction_to_physics_grades.csv, откроется следующий URL: https : //github.com/bot13956/datasets/blob/master/introduction_to_physics_grades.csv
Если вы введете этот URL-адрес в функцию download.file (), например, используя команду:
URL = “https://github.com/bot13956/datasets/blob/master/introduction_to_physics_grades.csv" download.file(URL, “grades.csv”)
вы получите следующие сообщения:
trying URL ‘https://github.com/bot13956/datasets/blob/master/introduction_to_physics_grades.csv' Content type ‘text/html; charset=utf-8’ length unknown downloaded 195 KB
Файл был загружен неправильно, поскольку для типа содержимого задано значение text / html. Если вы перейдете в свой рабочий каталог (в данном примере это каталог «C: / Users / btayo / Desktop / grade_classifier») и щелкните загруженный файл «grades.csv ”В вашем локальном каталоге, вы заметите, что файл был загружен в формате html. Это определенно неправильный формат. Поскольку мы загружаем файл csv, мы хотим, чтобы тип содержимого был text / plain, а не text / html.
Чтобы загрузить CSV-файл в формате t ext / plain, выполните следующую процедуру:
- перейдите в репозиторий GitHub: https://github.com/bot13956/datasets
- Затем щелкните файл csv: «Introduction_to_physics_grades.csv»
- Затем нажмите кнопку Raw в правом верхнем углу. Это должно открыть файл как файл csv.
- Теперь скопируйте URL-адрес на этой странице: https://raw.githubusercontent.com/bot13956/datasets/master/introduction_to_physics_grades.csv
Это URL-адрес, который следует использовать в качестве аргумента в функции download.file (). Таким образом, правильный код:
URL = “https://raw.githubusercontent.com/bot13956/datasets/master/introduction_to_physics_grades.csv" download.file(URL, “grades.csv”)
Обратите внимание, что после выполнения этой команды создаются следующие сообщения:
trying URL ‘https://raw.githubusercontent.com/bot13956/datasets/master/introduction_to_physics_grades.csv' Content type ‘text/plain; charset=utf-8’ length 9562 bytes downloaded 9562 bytes
Это показывает, что файл был загружен в правильном формате с типом содержимого text / plain.
Для просмотра и анализа данных, содержащихся в загруженном файле «grades.csv», вы можете использовать следующие команды:
library(readr) df<-read.csv(“grades.csv”) head(df)
Метод 2: использование функции read.csv () в R
Мы можем использовать функцию read.csv (), чтобы считывать данные непосредственно в нашу рабочую область и назначать их новому объекту фрейма данных с помощью следующей команды:
library(readr) URL = “https://raw.githubusercontent.com/bot13956/datasets/master/introduction_to_physics_grades.csv" df<-read.csv(URL) head(df)
Метод 3. Использование функции pd.read_csv () в Python
import pandas as pd URL = 'https://archive.ics.uci.edu/ml/machinelearning-databases/breast-cancer-wisconsin/wdbc.data' df = pd.read_csv(URL,header = None) df.head()
Резюме
Есть так много разных способов загрузки наборов данных из Интернета. В этом руководстве мы показали, как функции d ownload.file (), read.csv (), и pd.read_csv () можно использовать для чтения набора данных CSV непосредственно в ваш код с использованием правильного URL-адреса исходного файла.
Дополнительные ресурсы по науке о данных / машинному обучению
Сколько математики мне нужно в науке о данных?
Учебная программа по науке о данных
5 лучших степеней для входа в науку о данных
Планирование проекта машинного обучения
Как организовать свой проект по науке о данных
Инструменты повышения производительности для крупномасштабных проектов в области науки о данных
Портфолио Data Science более ценно, чем резюме
С вопросами и запросами пишите мне: [email protected]