Я пытаюсь очистить таблицу HTML с веб-сайта с помощью rvest. Единственная проблема заключается в том, что таблица, которую я пытаюсь очистить, не имеет тегов <tr>
, кроме первой строки. Это выглядит так:
<tr>
<td>6/21/2015 9:38 PM</td>
<td>5311 Lake Park</td>
<td>UCPD</td>
<td>African American</td>
<td>Male</td>
<td>Subject was causing a disturbance in the area.</td>
<td>Name checked; no further action</td>
<td>No</td>
</tr>
<td>6/21/2015 10:37 PM</td>
<td>5200 S Blackstone</td>
<td>UCPD</td>
<td>African American</td>
<td>Male</td>
<td>Subject was observed fighting in the McDonald's parking lot</td>
<td>Warned; released</td>
<td>No</td>
</tr>
И так далее. Итак, используя следующий код, я могу получить только первую строку в моем фрейме данных:
library(rvest)
mydata <- html_session("https://incidentreports.uchicago.edu/incidentReportArchive.php?startDate=06/01/2015&endDate=06/21/2015") %>%
html_node("table") %>%
html_table(header = TRUE, fill=TRUE)
Как я могу изменить это, чтобы html_table понимал, что строки являются строками, даже если у них нет открывающего тега <tr>
? Или есть лучший способ сделать это?
</tr>
на</tr><tr>
, а затем удалить последний завершающий<tr>
? - person Bram Vanroy   schedule 22.06.2015