Импорт файлов данных в R

Импорт файлов TEXT, CSV, TSV, JSON и XML в R

Импорт данных из различных форматов файлов — это первый шаг в создании моделей машинного обучения или визуализации данных. После импорта наборов данных мы обрабатываем и очищаем данные, затем упорядочиваем их и преобразовываем, чтобы получить наилучшие результаты от наших моделей и правильно передать информацию из нашей визуализации данных.

В этой статье мы будем импортировать наборы данных из различных типов форматов файлов, таких как TXT, CSV, TSV, JSON и XML, в фреймы данных языка программирования R.

Импортировать текстовый файл

read.table(file, header = FALSE, sep = '', stringAsFactor = FALSE, ...) используется для чтения текстового файла
введите ?read.table в консоли r-studio, чтобы просмотреть полную документацию по функции read.table()

Сделать первую строку заголовком фрейма данных

используйте параметр header = TRUE

Преобразование всех столбцов из символьных типов данных в факторные типы данных

используйте параметр stringAsFactor = FALSE в read.table(..., stringAsFactor = TRUE, ...), чтобы преобразовать все столбцы из факторных типов данных в символьные типы данных.
используйте str(df) для проверки типов данных столбцов фрейма данных

Преобразовать все столбцы из факторных типов данных в символьные типы данных

используйте параметр stringAsFactor = FALSE в read.table(..., stringAsFactor = FALSE, ...), чтобы преобразовать все столбцы из факторных типов данных в символьные типы данных.
используйте str(df) для проверки типов данных столбцов фрейма данных

Пропустить строки

используйте параметр skip = n в read.table(..., skip= n, ...)для исключения первых n строк данных

Чтение файла, разделенного косой чертой

используйте параметр sep = ‘/’ в функции read.table(..., sep = ‘/ ’, ...) для чтения файла, разделенного косой чертой

Без `sep=’/’` атрибутов

С атрибутами sep=’/’ и header = TRUE

Чтение определенных строк данных

header = FALSE означает, что набор данных не имеет заголовка
col.names = c(“roll_number”, “name”, “major”, “cgpa”) используется для обозначения столбцов
skip = 2 удалить две строчки сверху
nrows = 3 прочитать 3 строки, пропустив 2 строки сверху

Импорт файла CSV

read.csv(file, ...) используется для чтения файла CSV
str(df) используется для возврата структуры данных кадра данных R.

colClasses = c(“integer”, “character”, “factor”, “numeric”) используется для определения конкретных типов данных для столбцов фрейма данных.

colClasses = c(“NULL”, “character”, “factor”, “NULL”) используется для пропуска столбцов NULL

Чтение набора данных с отсутствующими значениями, представленными (`X, none, empty` и т. д.)

Замена отсутствующих значений на NA с помощью параметра na.strings = c(“X”, “none”, “empty”).

Импорт файла TSV

read.delim(file,…) используется для чтения файла TSV
which.max(data_frame$column) возвращает индекс максимального значения столбца data_frame
which.min(data_frame$column) вернуть индекс минимального значения столбца data_frame

Импорт файла JSON

fromJSON(file = ...) используется для чтения файла JSON с указанного URL-адреса.
do.call(rbind, df) упорядочить данные в табличном формате
Функция as.data.frame() используется для преобразования табличной структуры во фрейм данных.

Импорт XML-файла

getURL() из RCurl используется для получения онлайн-файла XML
xmlToDataFrame() используется для преобразования формата XML в формат фрейма данных.

Заключение

В этой статье мы импортировали данные из различных типов форматов файлов, таких как текст, CSV, TSV, JSON и XML, во фрейм данных языка программирования R.

Предложения по подаче заявок на Mlearning.ai
Как стать писателем на Mlearning.aimedium.com

Импорт файлов данных в R — Часть 1/2