Заранее извиняюсь, если где-то есть простой ответ. Это похоже на то, что было бы, но я не могу найти его в файлах справки, с помощью поиска SO или с помощью Google.
Сейчас я работаю с некоторыми наборами данных размером в несколько ГБ. Этого достаточно, чтобы поместиться в памяти на одном из узлов кластера, к которому у меня есть доступ, но для загрузки требуется довольно много времени. Для многих действий по отладке/программированию с этими данными мне не нужно загружать весь файл, достаточно первых нескольких тысяч наблюдений, чтобы иметь набор данных для тестирования кода. Я, конечно, могу просто прочитать весь файл и подмножество, но мне было интересно, есть ли способ сказать read.dta()
только для чтения в первых N строках? Это, конечно, будет гораздо быстрее.
Я также мог бы использовать правильный формат, такой как .csv, а затем использовать аргумент read.csv()
nrows, но тогда я бы потерял метки факторов в наборе данных Stata (и мне пришлось бы воссоздавать довольно много ГБ данных из чужого кода, который подается в этот Таким образом, предпочтительнее прямое решение для файлов .dta.
outsheet
для экспорта в CSV. Возможно, немного поздно для этого проекта, но это может облегчить вашу следующую совместную работу. ats.ucla.edu/stat/stata/faq/outsheet.htm< /а> - person Richie Cotton   schedule 11.04.2011