Импорт файлов TEXT, CSV, TSV, JSON и XML в R
Импорт данных из различных форматов файлов — это первый шаг в создании моделей машинного обучения или визуализации данных. После импорта наборов данных мы обрабатываем и очищаем данные, затем упорядочиваем их и преобразовываем, чтобы получить наилучшие результаты от наших моделей и правильно передать информацию из нашей визуализации данных.
В этой статье мы будем импортировать наборы данных из различных типов форматов файлов, таких как TXT, CSV, TSV, JSON и XML, в фреймы данных языка программирования R.
Импортировать текстовый файл
read.table(file, header = FALSE, sep = '', stringAsFactor = FALSE, ...)
используется для чтения текстового файла- введите
?read.table
в консоли r-studio, чтобы просмотреть полную документацию по функцииread.table()
Сделать первую строку заголовком фрейма данных
- используйте параметр
header = TRUE
Преобразование всех столбцов из символьных типов данных в факторные типы данных
- используйте параметр
stringAsFactor = FALSE
вread.table(..., stringAsFactor = TRUE, ...)
, чтобы преобразовать все столбцы из факторных типов данных в символьные типы данных. - используйте
str(df)
для проверки типов данных столбцов фрейма данных
Преобразовать все столбцы из факторных типов данных в символьные типы данных
- используйте параметр
stringAsFactor = FALSE
вread.table(..., stringAsFactor = FALSE, ...)
, чтобы преобразовать все столбцы из факторных типов данных в символьные типы данных. - используйте
str(df)
для проверки типов данных столбцов фрейма данных
Пропустить строки
- используйте параметр
skip = n
вread.table(..., skip= n, ...)
для исключения первыхn
строк данных
Чтение файла, разделенного косой чертой
- используйте параметр
sep = ‘/’
в функцииread.table(..., sep = ‘/ ’, ...)
для чтения файла, разделенного косой чертой
Без sep=’/’
атрибутов
С атрибутами sep=’/’
и header = TRUE
Чтение определенных строк данных
header = FALSE
означает, что набор данных не имеет заголовкаcol.names = c(“roll_number”, “name”, “major”, “cgpa”)
используется для обозначения столбцовskip = 2
удалить две строчки сверхуnrows = 3
прочитать 3 строки, пропустив 2 строки сверху
Импорт файла CSV
read.csv(file, ...)
используется для чтения файла CSVstr(df)
используется для возврата структуры данных кадра данных R.
colClasses = c(“integer”, “character”, “factor”, “numeric”)
используется для определения конкретных типов данных для столбцов фрейма данных.
colClasses = c(“NULL”, “character”, “factor”, “NULL”)
используется для пропуска столбцовNULL
Чтение набора данных с отсутствующими значениями, представленными (X, none, empty
и т. д.)
- Замена отсутствующих значений на
NA
с помощью параметраna.strings = c(“X”, “none”, “empty”)
.
Импорт файла TSV
read.delim(file,…)
используется для чтения файла TSVwhich.max(data_frame$column)
возвращает индекс максимального значения столбца data_framewhich.min(data_frame$column)
вернуть индекс минимального значения столбца data_frame
Импорт файла JSON
fromJSON(file = ...)
используется для чтения файла JSON с указанного URL-адреса.do.call(rbind, df)
упорядочить данные в табличном формате- Функция
as.data.frame()
используется для преобразования табличной структуры во фрейм данных.
Импорт XML-файла
getURL()
изRCurl
используется для получения онлайн-файла XMLxmlToDataFrame()
используется для преобразования форматаXML
в формат фрейма данных.
Заключение
В этой статье мы импортировали данные из различных типов форматов файлов, таких как текст, CSV, TSV, JSON и XML, во фрейм данных языка программирования R.