Импорт файлов TEXT, CSV, TSV, JSON и XML в R

Импорт данных из различных форматов файлов — это первый шаг в создании моделей машинного обучения или визуализации данных. После импорта наборов данных мы обрабатываем и очищаем данные, затем упорядочиваем их и преобразовываем, чтобы получить наилучшие результаты от наших моделей и правильно передать информацию из нашей визуализации данных.

В этой статье мы будем импортировать наборы данных из различных типов форматов файлов, таких как TXT, CSV, TSV, JSON и XML, в фреймы данных языка программирования R.

Импортировать текстовый файл

  • read.table(file, header = FALSE, sep = '', stringAsFactor = FALSE, ...) используется для чтения текстового файла
  • введите ?read.table в консоли r-studio, чтобы просмотреть полную документацию по функции read.table()

Сделать первую строку заголовком фрейма данных

  • используйте параметр header = TRUE

Преобразование всех столбцов из символьных типов данных в факторные типы данных

  • используйте параметр stringAsFactor = FALSE в read.table(..., stringAsFactor = TRUE, ...), чтобы преобразовать все столбцы из факторных типов данных в символьные типы данных.
  • используйте str(df) для проверки типов данных столбцов фрейма данных

Преобразовать все столбцы из факторных типов данных в символьные типы данных

  • используйте параметр stringAsFactor = FALSE в read.table(..., stringAsFactor = FALSE, ...), чтобы преобразовать все столбцы из факторных типов данных в символьные типы данных.
  • используйте str(df) для проверки типов данных столбцов фрейма данных

Пропустить строки

  • используйте параметр skip = n в read.table(..., skip= n, ...)для исключения первых n строк данных

Чтение файла, разделенного косой чертой

  • используйте параметр sep = ‘/’ в функции read.table(..., sep = ‘/ ’, ...) для чтения файла, разделенного косой чертой

Без sep=’/’ атрибутов

С атрибутами sep=’/’ и header = TRUE

Чтение определенных строк данных

  • header = FALSE означает, что набор данных не имеет заголовка
  • col.names = c(“roll_number”, “name”, “major”, “cgpa”) используется для обозначения столбцов
  • skip = 2 удалить две строчки сверху
  • nrows = 3 прочитать 3 строки, пропустив 2 строки сверху

Импорт файла CSV

  • read.csv(file, ...) используется для чтения файла CSV
  • str(df) используется для возврата структуры данных кадра данных R.
  • colClasses = c(“integer”, “character”, “factor”, “numeric”) используется для определения конкретных типов данных для столбцов фрейма данных.
  • colClasses = c(“NULL”, “character”, “factor”, “NULL”) используется для пропуска столбцов NULL

Чтение набора данных с отсутствующими значениями, представленными (X, none, empty и т. д.)

  • Замена отсутствующих значений на NA с помощью параметра na.strings = c(“X”, “none”, “empty”).

Импорт файла TSV

  • read.delim(file,…) используется для чтения файла TSV
  • which.max(data_frame$column) возвращает индекс максимального значения столбца data_frame
  • which.min(data_frame$column) вернуть индекс минимального значения столбца data_frame

Импорт файла JSON

  • fromJSON(file = ...) используется для чтения файла JSON с указанного URL-адреса.
  • do.call(rbind, df) упорядочить данные в табличном формате
  • Функция as.data.frame() используется для преобразования табличной структуры во фрейм данных.

Импорт XML-файла

  • getURL() из RCurl используется для получения онлайн-файла XML
  • xmlToDataFrame() используется для преобразования формата XML в формат фрейма данных.

Заключение

В этой статье мы импортировали данные из различных типов форматов файлов, таких как текст, CSV, TSV, JSON и XML, во фрейм данных языка программирования R.