Вопросы по теме 'htmlcleaner'

Какую библиотеку использовать для создания HTML-документов?
Может ли кто-нибудь порекомендовать библиотеки, которые могут делать противоположные вещи, чем эти библиотеки? HtmlCleaner, TagSoup, HtmlParser, HtmlUnit, jSoup, jTidy, nekoHtml, WebHarvest или Jericho. Мне нужно создать html-страницы, построить...
2551 просмотров
schedule 04.05.2024

Выражение xPath для вложенных узлов
Я пытаюсь придумать сложное выражение xPath, но не могу понять, как это сделать. Представьте, что у вас есть такой HTML-код: <span> something1 <br> something2 <br> something3 </span> Представьте,...
398 просмотров
schedule 19.12.2022

Извлечение текста из HTML — Perl с помощью HTML::TreeBuilder
Я пытаюсь получить доступ к файлам .html и извлечь текст в тегах <p> . По логике, мой код ниже должен работать. С помощью HTML::TreeBuilder. Я анализирую html, затем извлекаю текст в <p> , используя find_by_attribute("p"). Но мой...
2881 просмотров

Регулярное выражение Python для удаления html-тегов без атрибута href
У меня есть строка, которая была очищена с помощью lxml Cleaner, поэтому все ссылки теперь в форме Content. Теперь я хотел бы удалить все ссылки, у которых нет атрибута href, например. <a rel="nofollow">Link to be removed</a>...
1093 просмотров
schedule 29.04.2022

Как добавить соответствующий начальный тег в HTML
У меня есть html-контент, который выглядит как <body>Hello world</div><div>New day</div></body> Я хотел бы проанализировать этот фрагмент html и добавить начальный тег div перед Hello. Каков подход, которому я...
554 просмотров
schedule 12.07.2022

Общий xpath для доступа к определенному содержимому вкладки, если он существует
Ниже приведены две веб-страницы с такими вкладками, как «Функции, приложения и преимущества», здесь я хочу извлечь содержимое только вкладки «Функции». Одна веб-страница имеет «Функции» на первой вкладке, а другая веб-страница имеет «Преимущества»...
337 просмотров
schedule 28.08.2022