Как загрузить файл, ссылка на который есть на сайте, с помощью R?

Я пытаюсь загрузить файл .xlsx со следующего веб-сайта: https://www.cor.pa.gov/Pages/COVID-19.aspx

На веб-сайте есть ссылка для чтения последних данных тестирования заключенных и сотрудников PA DOC на COVID-19. Когда вы щелкаете по нему, он загружает файл .xlsx. Он не перенаправляет на другую страницу.

я пробовал

download.file("https://www.cor.pa.gov/Pages/COVID-19.aspx/Documents/PA-DOC-COVID-19-Testing.xlsx",destfile="PA-DOC-COVID-19-Testing (1).xlsx")
Penn <- read_excel("PA-DOC-COVID-19-Testing (1).xlsx")

но я получаю сообщение об ошибке Ошибка: ошибка оценки: zip-файл '/ myfiledirectory / PA-DOC-COVID-19-Testing (1) .xlsx' не может быть открыт. '

Я получил URL-адрес download.file (/Documents/PA-DOC-COVID-19-Testing.xlsx) из html-кода.

Если у кого-то есть понимание, как это сделать, я был бы очень признателен. Спасибо!


person babybonobo    schedule 26.06.2020    source источник
comment
Вы ошиблись ссылкой. Используйте cor.pa.gov/Documents/PA-DOC. -COVID-19-Testing.xlsx Я оставил вам правильный URL в своем ответе   -  person davidnortes    schedule 26.06.2020


Ответы (2)


Вы ошиблись ссылкой. Это работает:

download.file("https://www.cor.pa.gov/Documents/PA-DOC-COVID-19-Testing.xlsx", destfile="PA-DOC-COVID-19-Testing.xlsx")
Penn <- readxl::read_excel("PA-DOC-COVID-19-Testing.xlsx")

> head(Penn)
# A tibble: 6 x 23
  LOCATION `Staff Testing` ...3  ...4  ...5  ...6  `Inmate Testing` ...8  ...9  ...10 ...11
  <chr>    <chr>           <chr> <chr> <chr> <chr> <chr>            <chr> <chr> <chr> <chr>
1 NA       Positive        Nega… Pend… Deat… Reco… Positive         Nega… Pend… Deat… Reco…
2 Central… 1               1     NA    NA    NA    NA               NA    NA    NA    NA   
3 Albion   NA              7     5     NA    NA    NA               89    NA    NA    NA   
4 Benner … NA              13    2     NA    NA    1                91    NA    1     NA   
5 Cambrid… NA              8     1     NA    NA    NA               163   NA    NA    NA   
6 Camp Hi… 4               8     21    NA    3     1                1333  NA    NA    NA   
# … with 12 more variables: `Inmate Testing Purpose` <chr>, ...13 <chr>, ...14 <chr>, ...15 <chr>,
#   ...16 <chr>, ...17 <chr>, ...18 <chr>, ...19 <chr>, ...20 <chr>, ...21 <chr>, ...22 <lgl>,
#   ...23 <chr>
person davidnortes    schedule 26.06.2020
comment
спасибо что поправили ссылку! Я не понимал, что он вернется к общему сайту www.cor.pa.gov, а не к странице, с которой на него была сделана ссылка! Очень полезно. Ценю ваше время! - person babybonobo; 26.06.2020

Вам необходимо разархивировать загруженный файл. Поскольку файлы, загруженные из Интернета, заархивированы. Вы можете найти ссылку на аналогичную ветку в StackOverflow здесь: Использование R для загрузки заархивированного файла данных, извлечения и импорта данных

person Abhit Maurya    schedule 26.06.2020