Публикации по теме htmlcleaner

Вопросы по теме 'htmlcleaner'

Какую библиотеку использовать для создания HTML-документов?

Может ли кто-нибудь порекомендовать библиотеки, которые могут делать противоположные вещи, чем эти библиотеки? HtmlCleaner, TagSoup, HtmlParser, HtmlUnit, jSoup, jTidy, nekoHtml, WebHarvest или Jericho. Мне нужно создать html-страницы, построить...

2551 просмотров

04.05.2024

Выражение xPath для вложенных узлов

Я пытаюсь придумать сложное выражение xPath, но не могу понять, как это сделать. Представьте, что у вас есть такой HTML-код: <span> something1 <br> something2 <br> something3 </span> Представьте,...

398 просмотров

xpath htmlcleaner

19.12.2022

Извлечение текста из HTML — Perl с помощью HTML::TreeBuilder

Я пытаюсь получить доступ к файлам .html и извлечь текст в тегах <p> . По логике, мой код ниже должен работать. С помощью HTML::TreeBuilder. Я анализирую html, затем извлекаю текст в <p> , используя find_by_attribute("p"). Но мой...

2881 просмотров

html text-extraction perl html-content-extraction htmlcleaner

08.07.2023

Регулярное выражение Python для удаления html-тегов без атрибута href

У меня есть строка, которая была очищена с помощью lxml Cleaner, поэтому все ссылки теперь в форме Content. Теперь я хотел бы удалить все ссылки, у которых нет атрибута href, например. <a rel="nofollow">Link to be removed</a>...

1093 просмотров

python html regex strip htmlcleaner

29.04.2022

Как добавить соответствующий начальный тег в HTML

У меня есть html-контент, который выглядит как <body>Hello world</div><div>New day</div></body> Я хотел бы проанализировать этот фрагмент html и добавить начальный тег div перед Hello. Каков подход, которому я...

554 просмотров

html htmlcleaner

12.07.2022

Общий xpath для доступа к определенному содержимому вкладки, если он существует

Ниже приведены две веб-страницы с такими вкладками, как «Функции, приложения и преимущества», здесь я хочу извлечь содержимое только вкладки «Функции». Одна веб-страница имеет «Функции» на первой вкладке, а другая веб-страница имеет «Преимущества»...

337 просмотров

java xpath htmlcleaner

28.08.2022