Вопросы по теме 'html-parsing'

Замените новые строки тегами BR, но только внутри тегов PRE.
В наличии PHP5, какое хорошее preg_replace выражение для выполнения этого преобразования: заменить новые строки на <br /> , но только в пределах <pre> блоков (Не стесняйтесь делать упрощающие предположения и игнорировать...
2139 просмотров
schedule 17.01.2023

C # Regex - Как разобрать строку для шведских букв åäöÅÄÖ?
Я пытаюсь проанализировать файл HTML для строк в этом формате: <a href="/userinfo/userinfo.aspx?ID=305157" target="main">MyUsername</a> O22</td> Я хочу получить информацию, где «305157», «MyUsername» и первая буква в «O22»...
2999 просмотров
schedule 15.01.2023

HTML Agility Pack против jquery
Знаете ли вы какое-либо расширение для HTML Agility Pack, которое позволяет запрашивать объект HtmlDocument (созданный HAP) в стиле jQuery (вместо XPath)?
1214 просмотров
schedule 19.07.2022

Очиститель HTML: преобразование ‹body› в ‹div›
помещение Я хочу использовать HTML Purifier для преобразования тегов <body> в теги <div> , чтобы сохранить встроенный стиль для элемента <body> , например <body style="background:color#000000;">Hi there.</body>...
2221 просмотров
schedule 06.06.2023

Как извлечь ключевые слова из HTML-страницы на С#?
В основном я хочу извлечь ключевые слова, слова или токены, которые присутствуют на веб-странице, после удаления стоп-слов. Кто-нибудь знает, как это сделать? Код на С# приветствуется.
1728 просмотров
schedule 12.04.2022

У парсера Ruby HTML, написанного на Hpricot, возникают проблемы с экранированным HTML
Я пытаюсь очистить эту страницу: http://www.udel.edu/dining/menus/russell.html . Я написал парсер на Ruby, используя библиотеку Hpricot. проблема: HTML-страница экранирована, и мне нужно отобразить ее без экранирования example: "M&amp;M"...
741 просмотров

Как я могу использовать PHP Simple HTML DOM Parser для получения содержимого тега ‹h1›‹/h1›?
Я новичок в PHP =) Сейчас я использую PHP для своего шаблона сайта. У меня есть заголовок, содержащий всю мою информацию <head></head> . Что я хочу сделать, так это написать код, который будет брать содержимое тега...
11410 просмотров
schedule 27.12.2023

UNIX Parse HTML-страница Отображает содержимое тега - один вкладыш?
У меня есть файл HTML, и меня интересуют данные, заключенные в теги <pre> </pre> . Есть ли однострочник, который может это сделать? Образец файла: <html> <title> Hello There! </title> <body> <pre>...
4031 просмотров
schedule 28.11.2022

libxml2 на iPhone
Я пытаюсь разобрать файл HTML с помощью libxml2. Обычно это работает нормально, но не в этом случае: <p> <b>Titles</b> (Some Text) <table> <tr> <td valign="top">...
630 просмотров
schedule 29.06.2023

Получить визуализированный текст из HTML (Delphi)
У меня есть HTML, и мне нужно извлечь текст со страницы. До сих пор я пытался использовать веб-браузер и отображать страницу, затем переходить к свойству документа и захватывать текст. Это работает, но только там, где поддерживается браузер...
4338 просмотров

Пуленепробиваемый SimpleXMLElement
Всем известно, что мы всегда должны использовать методы DOM вместо регулярных выражений для извлечения содержимого из HTML, но у меня такое чувство, что я никогда не смогу доверять расширению SimpleXML или подобным. Я сейчас кодирую реализацию...
4930 просмотров
schedule 12.07.2022

Разбор HTML: системы классификации для взрослых
Я изучаю различные и (иногда устаревшие) стандарты рейтингов/классификаций, используемые в Интернете. т.е. PICS , ПОРОШОК , ICRA Какой стандарт наиболее популярен (количество сайтов, использующих его)? Есть ли библиотека С#, которая будет...
773 просмотров
schedule 07.10.2022

Получить список всех URL-адресов на веб-странице
Как лучше всего получить массив всех URL-адресов на веб-странице? и как бы мне это сделать?
5787 просмотров
schedule 06.08.2023

Как избежать утечки места при чтении HTML-документа с помощью HXT
Ссылка на усеченную версию образца документа Я пытаюсь извлечь большой кусок текста из последнего «pre», обработать его и вывести. Допустим, я хочу применить concatMap (unwords . take 62 . drop 11) . lines к тексту и выведите его....
256 просмотров
schedule 03.01.2024

Избавить html от тегов script и style с помощью BeautifulSoup?
У меня есть простой сценарий, в котором я извлекаю HTML-страницу, передаю ее в BeautifulSoup, чтобы удалить все теги сценария и стиля, а затем я хочу передать результат HTML другому методу. Есть простой способ сделать это? Просматривая...
4846 просмотров

Как разобрать и изменить файл HTML в Java
Я делаю проект, в котором мне нужно прочитать файл HTML и определить определенные теги, изменить содержимое тега и создать новый файл HTML. Есть ли библиотека, которая анализирует теги HTML и способна записывать теги обратно в новый файл?
9787 просмотров
schedule 05.07.2022

Разбор специальных символов HTML
Я ищу класс java для анализа всех специальных символов HTML. Я думаю, что это общая проблема, но я не могу найти быстрое решение прямо сейчас. Что я хочу получить: input: th&egrave; --> output: thè input: &#187; input: &lraquo;...
1110 просмотров
schedule 24.01.2023

JavaScript для анализа таблицы чисел HTML в массив
Я разбираю существующую таблицу HTML на веб-странице в массив чисел, чтобы позже передать объект графика. Я изучаю JavaScript, и неясно, как я должен перебирать значения данных в тегах HTML. Вот что я придумал: for (i = 0; i <...
6113 просмотров
schedule 03.11.2022

ColdFusion Regex для поиска пустых тегов html
Привет всем, я пытаюсь динамически удалить некоторые пустые теги html. Я новичок в Regex, и кажется, что движок для coldfusion не так надежен/похож на другие движки regex (например, javascript и as3). В чем хитрость создания регулярного выражения,...
730 просмотров

HTML-разбор iPhone с использованием TouchXML и tidy
Я пытаюсь разобрать HTML с помощью TouchXML . Однако кажется, что данные, которые я хочу разобрать (я не контролирую источник, он загружен из Интернета), частично искажены - во время анализа я получаю различные ошибки. Поэтому кажется, что я должен...
1276 просмотров
schedule 11.10.2022