У меня есть набор данных .csv, разделенный символом , и содержащий около 5000 строк и 5 столбцов.
Однако для некоторых столбцов содержимое также содержит , например:
2660,11-01-2016,70.75,05-06-2013,I,,,
4080,26-02-2016,59.36,,D
Таким образом, когда я попытался прочитать его с помощью read_delim()
, он выдаст мне warnings
, но результат должен быть в порядке, например:
Предупреждение: 7 ошибок парсинга.
row # Таблица: 5 x 5 col row col ожидаемый фактический файл ожидаемый фактический 1 309 5 столбцов 8 столбцов 'data/my_data.csv' файл 2 523 5 столбцов 7 столбцов 'data/my_data.csv' строка 3 588 5 столбцов 8 столбцов 'data/my_data.csv' col 4 1661 5 столбцов 9 столбцов 'data/my_data.csv' ожидается 5 1877 5 столбцов 7 столбцов 'data/my_data.csv'
Есть ли способ для меня решить эту проблему?
Думаю, я мог бы использовать read_Lines()
и обработать их один за другим, а затем превратить их в фрейм данных.
Есть ли у вас другие способы справиться с такой ситуацией?
read.table
никак не может различать. Вы можете либо избегать столбцов с данными запятой, либо, как вы предлагаете, читать каждую строку вручную. - person Tim Biegeleisen   schedule 24.11.2017