Я пытаюсь очистить страницу, которая загружает большую часть своего содержимого через ajax.
Я пытаюсь получить все узлы li
с атрибутом data-section
с этой веб-страницы. , Например. HTML-код ответа содержит шесть обязательных узлов, которые мне нужны, но большинство остальных загружаются через запрос ajax, который возвращает html, содержащий оставшиеся li
узла.
Поэтому я переключился с использования запросов на использование селена с драйвером PhantomJS, который должен быть дружественным к xhr, но я не получаю дополнительный загруженный контент ajax.
Запускаемый:
from selenium import webdriver
from lxml import html
br = webdriver.PhantomJS()
br.get(url)
tree = html.fromstring(br.page_source)
print tree.xpath('//li[@data-section]/a/text()')
Вкратце, приведенный выше код не может внедрить html на веб-страницу через xhr. Как я могу это сделать? Если нет, то каковы мои другие безголовые варианты.
li
элементов. Не подскажете, как это проверить? Решение EC звучит лучше, чем неявное ожидание, которое замедлит сканирование. - person pad   schedule 15.11.2014