Отфильтруйте текст внутри ‹script› с помощью xpath

<div>
   <p>...</p>
   <script>...</script>
   <p>...</p>
   <script>...</script>
   <p>...</p> 
</div>

Я хочу извлечь все тексты в этом узле div, мое выражение xpath выглядит так: 'string(//div)'. Но это также получит тексты в метке скрипта, как мне их удалить? Спасибо


person John Smith    schedule 28.10.2020    source источник
comment
Отвечает ли это на ваш вопрос? Очистка текста без кода javascript с помощью scrapy   -  person TheDataFox    schedule 28.10.2020


Ответы (1)


Чтобы получить текстовые узлы из div, исключая текст из script узлов, вы можете попробовать

//div//text()[not(parent::script)]
person JaSON    schedule 28.10.2020