Программирование

Прочтите CSV-файл из Интернета прямо в свой код

Используйте такие функции, как download.file (), read.csv () и pd.read_csv (), чтобы прочитать файл CSV из Интернета непосредственно в код R или Python.

Вступление

Прежде чем проводить какой-либо анализ данных, нам в первую очередь необходимо иметь надежный источник данных. Одним из надежных источников данных являются данные из Интернета. Существует так много веб-сайтов, на которых можно получить наборы данных для анализа или построения моделей. Данные поступают в различных форматах, таких как числовые данные, текстовые данные, голосовые данные, данные изображения или видеоданные. В этой статье мы сосредоточимся на числовых данных, хранящихся в формате файлов с разделителями-запятыми (CSV).

Некоторые примеры бесплатных наборов данных, хранящихся в файлах CSV, которые можно загрузить для анализа, включают следующее:

а) Репозиторий машинного обучения Калифорнийского университета в Ирвине (UCI)

В настоящее время UCI поддерживает 487 наборов данных в качестве услуги для сообщества машинного обучения, которые можно использовать для практики анализа данных, домашних заданий и проектов на курсах и семинарах по науке о данных.

б) Наборы данных Kaggle

Наборы данных Kaggle также содержат множество наборов данных для очень сложных проектов в области науки о данных и машинного обучения.

в) GitHub

GitHub содержит тысячи репозиториев с готовыми наборами данных, которые легко доступны для загрузки.

В этом руководстве мы покажем, как загрузить файл: Introduction_to_physics_grades.csv из следующего репозитория GitHub: https://github.com/bot13956/datasets.

Метод 1. Использование функции download.file () в R

Используйте функцию setwd (), чтобы выбрать каталог, в котором следует сохранить файл:

setwd(“C:\\Users\\btayo\\Desktop\\grade_classifier”)

Затем используйте функцию download.file (URL, filename), чтобы загрузить файл. Здесь URL (унифицированный указатель ресурса) - это строка, содержащая URL-адрес исходного файла, а filename - имя файла назначения.

Примечания по предоставлению правильного URL

Если вы перейдете в репозиторий GitHub https://github.com/bot13956/datasets и щелкните файл: i ntroduction_to_physics_grades.csv, откроется следующий URL: https : //github.com/bot13956/datasets/blob/master/introduction_to_physics_grades.csv

Если вы введете этот URL-адрес в функцию download.file (), например, используя команду:

URL = “https://github.com/bot13956/datasets/blob/master/introduction_to_physics_grades.csv"
download.file(URL, “grades.csv”)

вы получите следующие сообщения:

trying URL ‘https://github.com/bot13956/datasets/blob/master/introduction_to_physics_grades.csv'
Content type ‘text/html; charset=utf-8’ length unknown
downloaded 195 KB

Файл был загружен неправильно, поскольку для типа содержимого задано значение text / html. Если вы перейдете в свой рабочий каталог (в данном примере это каталог «C: / Users / btayo / Desktop / grade_classifier») и щелкните загруженный файл «grades.csv ”В вашем локальном каталоге, вы заметите, что файл был загружен в формате html. Это определенно неправильный формат. Поскольку мы загружаем файл csv, мы хотим, чтобы тип содержимого был text / plain, а не text / html.

Чтобы загрузить CSV-файл в формате t ext / plain, выполните следующую процедуру:

Это URL-адрес, который следует использовать в качестве аргумента в функции download.file (). Таким образом, правильный код:

URL = “https://raw.githubusercontent.com/bot13956/datasets/master/introduction_to_physics_grades.csv"
download.file(URL, “grades.csv”)

Обратите внимание, что после выполнения этой команды создаются следующие сообщения:

trying URL ‘https://raw.githubusercontent.com/bot13956/datasets/master/introduction_to_physics_grades.csv'
Content type ‘text/plain; charset=utf-8’ length 9562 bytes
downloaded 9562 bytes

Это показывает, что файл был загружен в правильном формате с типом содержимого text / plain.

Для просмотра и анализа данных, содержащихся в загруженном файле «grades.csv», вы можете использовать следующие команды:

library(readr)
df<-read.csv(“grades.csv”)
head(df)

Метод 2: использование функции read.csv () в R

Мы можем использовать функцию read.csv (), чтобы считывать данные непосредственно в нашу рабочую область и назначать их новому объекту фрейма данных с помощью следующей команды:

library(readr)
URL = “https://raw.githubusercontent.com/bot13956/datasets/master/introduction_to_physics_grades.csv"
df<-read.csv(URL)
head(df)

Метод 3. Использование функции pd.read_csv () в Python

import pandas as pd
URL = 'https://archive.ics.uci.edu/ml/machinelearning-databases/breast-cancer-wisconsin/wdbc.data'
df = pd.read_csv(URL,header = None)
df.head()

Резюме

Есть так много разных способов загрузки наборов данных из Интернета. В этом руководстве мы показали, как функции d ownload.file (), read.csv (), и pd.read_csv () можно использовать для чтения набора данных CSV непосредственно в ваш код с использованием правильного URL-адреса исходного файла.

Дополнительные ресурсы по науке о данных / машинному обучению

Сколько математики мне нужно в науке о данных?

Учебная программа по науке о данных

5 лучших степеней для входа в науку о данных

Теоретические основы науки о данных - мне нужно заботиться или просто сосредоточиться на практических навыках?

Планирование проекта машинного обучения

Как организовать свой проект по науке о данных

Инструменты повышения производительности для крупномасштабных проектов в области науки о данных

Портфолио Data Science более ценно, чем резюме

С вопросами и запросами пишите мне: [email protected]