Я использую Jsoup для очистки данных HTML с веб-сайта, но внутри тега javascript есть один раздел XML, который мне нужно получить, потому что у него есть куча URL-адресов, которые мне нужно извлечь и загрузить изображения. Вот как это выглядит:
<script type="text/javascript">
var xmlTxt = '<?xml version="1.0" encoding="UTF-8" standalone="yes"?><mediaObject><mediaList rail="1"><carMedia thumbnail="http://images.blah.com/scaler/80/60/images/2011/9/22/307/179/22343202654.307179719.IM1.MAIN.565x421_A.562x421.jpg" url="http://images.blah.com/scaler/544/408/images/2011/9/22/307/179/22343202654.307179719.IM1.MAIN.565x421_A.562x421.jpg" type="INV_PHOTO" mediaLabel="" category="UNCATEGORIZED" sequence="2"/></mediaList></mediaObject>';'
За этим следует целая куча кода javascript внутри тега script. Как лучше всего извлечь эти URL-адреса со страницы, если у меня есть Jsoup Document
? Если я не могу сделать это с Jsoup, как я могу это сделать? Проблема в том, что изображения хранятся в карусели, поэтому HTML на странице показывает только источник тех изображений, которые в данный момент отображаются в карусели.