Вопросы по теме 'html-parsing'
Замените новые строки тегами BR, но только внутри тегов PRE.
В наличии PHP5, какое хорошее preg_replace выражение для выполнения этого преобразования:
заменить новые строки на <br /> , но только в пределах <pre> блоков
(Не стесняйтесь делать упрощающие предположения и игнорировать...
2139 просмотров
schedule
17.01.2023
C # Regex - Как разобрать строку для шведских букв åäöÅÄÖ?
Я пытаюсь проанализировать файл HTML для строк в этом формате:
<a href="/userinfo/userinfo.aspx?ID=305157" target="main">MyUsername</a> O22</td>
Я хочу получить информацию, где «305157», «MyUsername» и первая буква в «O22»...
2999 просмотров
schedule
15.01.2023
HTML Agility Pack против jquery
Знаете ли вы какое-либо расширение для HTML Agility Pack, которое позволяет запрашивать объект HtmlDocument (созданный HAP) в стиле jQuery (вместо XPath)?
1214 просмотров
schedule
19.07.2022
Очиститель HTML: преобразование ‹body› в ‹div›
помещение
Я хочу использовать HTML Purifier для преобразования тегов <body> в теги <div> , чтобы сохранить встроенный стиль для элемента <body> , например <body style="background:color#000000;">Hi there.</body>...
2221 просмотров
schedule
06.06.2023
Как извлечь ключевые слова из HTML-страницы на С#?
В основном я хочу извлечь ключевые слова, слова или токены, которые присутствуют на веб-странице, после удаления стоп-слов. Кто-нибудь знает, как это сделать? Код на С# приветствуется.
1728 просмотров
schedule
12.04.2022
У парсера Ruby HTML, написанного на Hpricot, возникают проблемы с экранированным HTML
Я пытаюсь очистить эту страницу: http://www.udel.edu/dining/menus/russell.html . Я написал парсер на Ruby, используя библиотеку Hpricot.
проблема: HTML-страница экранирована, и мне нужно отобразить ее без экранирования
example: "M&M"...
741 просмотров
schedule
02.07.2022
Как я могу использовать PHP Simple HTML DOM Parser для получения содержимого тега ‹h1›‹/h1›?
Я новичок в PHP =) Сейчас я использую PHP для своего шаблона сайта. У меня есть заголовок, содержащий всю мою информацию <head></head> . Что я хочу сделать, так это написать код, который будет брать содержимое тега...
11410 просмотров
schedule
27.12.2023
UNIX Parse HTML-страница Отображает содержимое тега - один вкладыш?
У меня есть файл HTML, и меня интересуют данные, заключенные в теги <pre> </pre> . Есть ли однострочник, который может это сделать?
Образец файла:
<html>
<title>
Hello There!
</title>
<body>
<pre>...
4031 просмотров
schedule
28.11.2022
libxml2 на iPhone
Я пытаюсь разобрать файл HTML с помощью libxml2. Обычно это работает нормально, но не в этом случае:
<p>
<b>Titles</b>
(Some Text)
<table>
<tr>
<td valign="top">...
630 просмотров
schedule
29.06.2023
Получить визуализированный текст из HTML (Delphi)
У меня есть HTML, и мне нужно извлечь текст со страницы.
До сих пор я пытался использовать веб-браузер и отображать страницу, затем переходить к свойству документа и захватывать текст. Это работает, но только там, где поддерживается браузер...
4338 просмотров
schedule
05.05.2022
Пуленепробиваемый SimpleXMLElement
Всем известно, что мы всегда должны использовать методы DOM вместо регулярных выражений для извлечения содержимого из HTML, но у меня такое чувство, что я никогда не смогу доверять расширению SimpleXML или подобным.
Я сейчас кодирую реализацию...
4930 просмотров
schedule
12.07.2022
Разбор HTML: системы классификации для взрослых
Я изучаю различные и (иногда устаревшие) стандарты рейтингов/классификаций, используемые в Интернете. т.е. PICS , ПОРОШОК , ICRA
Какой стандарт наиболее популярен (количество сайтов, использующих его)?
Есть ли библиотека С#, которая будет...
773 просмотров
schedule
07.10.2022
Получить список всех URL-адресов на веб-странице
Как лучше всего получить массив всех URL-адресов на веб-странице? и как бы мне это сделать?
5787 просмотров
schedule
06.08.2023
Как избежать утечки места при чтении HTML-документа с помощью HXT
Ссылка на усеченную версию образца документа
Я пытаюсь извлечь большой кусок текста из последнего «pre», обработать его и вывести. Допустим, я хочу применить
concatMap (unwords . take 62 . drop 11) . lines
к тексту и выведите его....
256 просмотров
schedule
03.01.2024
Избавить html от тегов script и style с помощью BeautifulSoup?
У меня есть простой сценарий, в котором я извлекаю HTML-страницу, передаю ее в BeautifulSoup, чтобы удалить все теги сценария и стиля, а затем я хочу передать результат HTML другому методу. Есть простой способ сделать это? Просматривая...
4846 просмотров
schedule
27.05.2022
Как разобрать и изменить файл HTML в Java
Я делаю проект, в котором мне нужно прочитать файл HTML и определить определенные теги, изменить содержимое тега и создать новый файл HTML. Есть ли библиотека, которая анализирует теги HTML и способна записывать теги обратно в новый файл?
9787 просмотров
schedule
05.07.2022
Разбор специальных символов HTML
Я ищу класс java для анализа всех специальных символов HTML. Я думаю, что это общая проблема, но я не могу найти быстрое решение прямо сейчас.
Что я хочу получить:
input: thè --> output: thè
input: »
input: &lraquo;...
1110 просмотров
schedule
24.01.2023
JavaScript для анализа таблицы чисел HTML в массив
Я разбираю существующую таблицу HTML на веб-странице в массив чисел, чтобы позже передать объект графика. Я изучаю JavaScript, и неясно, как я должен перебирать значения данных в тегах HTML. Вот что я придумал:
for (i = 0; i <...
6113 просмотров
schedule
03.11.2022
ColdFusion Regex для поиска пустых тегов html
Привет всем, я пытаюсь динамически удалить некоторые пустые теги html. Я новичок в Regex, и кажется, что движок для coldfusion не так надежен/похож на другие движки regex (например, javascript и as3).
В чем хитрость создания регулярного выражения,...
730 просмотров
schedule
16.03.2023
HTML-разбор iPhone с использованием TouchXML и tidy
Я пытаюсь разобрать HTML с помощью TouchXML . Однако кажется, что данные, которые я хочу разобрать (я не контролирую источник, он загружен из Интернета), частично искажены - во время анализа я получаю различные ошибки. Поэтому кажется, что я должен...
1276 просмотров
schedule
11.10.2022