Я много искал о BeautifulSoup, и некоторые предложили lxml в качестве будущего BeautifulSoup, хотя это имеет смысл, мне трудно разобрать следующую таблицу из всего списка таблиц на веб-странице.
Меня интересуют три столбца с различным количеством строк в зависимости от страницы и времени ее проверки. Решение BeautifulSoup и lxml заслуживает высокой оценки. Таким образом, я могу попросить администратора установить lxml на dev. машина.
Желаемый результат:
Website Last Visited Last Loaded
http://google.com 01/14/2011
http://stackoverflow.com 01/10/2011
...... more if present
Ниже приведен пример кода с запутанной веб-страницы:
<table border="2" width="100%">
<tbody><tr>
<td width="33%" class="BoldTD">Website</td>
<td width="33%" class="BoldTD">Last Visited</td>
<td width="34%" class="BoldTD">Last Loaded</td>
</tr>
<tr>
<td width="33%">
<a href="http://google.com"</a>
</td>
<td width="33%">01/14/2011
</td>
<td width="34%">
</td>
</tr>
<tr>
<td width="33%">
<a href="http://stackoverflow.com"</a>
</td>
<td width="33%">01/10/2011
</td>
<td width="34%">
</td>
</tr>
</tbody></table>