Публикации по теме html-parsing [php, regex, html-parsing, c#, html]

Вопросы по теме 'html-parsing'

Замените новые строки тегами BR, но только внутри тегов PRE.

В наличии PHP5, какое хорошее preg_replace выражение для выполнения этого преобразования: заменить новые строки на <br /> , но только в пределах <pre> блоков (Не стесняйтесь делать упрощающие предположения и игнорировать...

2139 просмотров

php regex html-parsing

17.01.2023

C # Regex - Как разобрать строку для шведских букв åäöÅÄÖ?

Я пытаюсь проанализировать файл HTML для строк в этом формате: <a href="/userinfo/userinfo.aspx?ID=305157" target="main">MyUsername</a> O22</td> Я хочу получить информацию, где «305157», «MyUsername» и первая буква в «O22»...

2999 просмотров

c# regex html-parsing

15.01.2023

HTML Agility Pack против jquery

Знаете ли вы какое-либо расширение для HTML Agility Pack, которое позволяет запрашивать объект HtmlDocument (созданный HAP) в стиле jQuery (вместо XPath)?

1214 просмотров

c# html-parsing

19.07.2022

Очиститель HTML: преобразование ‹body› в ‹div›

помещение Я хочу использовать HTML Purifier для преобразования тегов <body> в теги <div> , чтобы сохранить встроенный стиль для элемента <body> , например <body style="background:color#000000;">Hi there.</body>...

2221 просмотров

php html html-parsing htmlpurifier

06.06.2023

Как извлечь ключевые слова из HTML-страницы на С#?

В основном я хочу извлечь ключевые слова, слова или токены, которые присутствуют на веб-странице, после удаления стоп-слов. Кто-нибудь знает, как это сделать? Код на С# приветствуется.

1728 просмотров

c# html-parsing

12.04.2022

У парсера Ruby HTML, написанного на Hpricot, возникают проблемы с экранированным HTML

Я пытаюсь очистить эту страницу: http://www.udel.edu/dining/menus/russell.html . Я написал парсер на Ruby, используя библиотеку Hpricot. проблема: HTML-страница экранирована, и мне нужно отобразить ее без экранирования example: "M&M"...

741 просмотров

ruby html-parsing escaping html-entities open-uri

02.07.2022

Как я могу использовать PHP Simple HTML DOM Parser для получения содержимого тега ‹h1›‹/h1›?

Я новичок в PHP =) Сейчас я использую PHP для своего шаблона сайта. У меня есть заголовок, содержащий всю мою информацию <head></head> . Что я хочу сделать, так это написать код, который будет брать содержимое тега...

11410 просмотров

php html-parsing

27.12.2023

UNIX Parse HTML-страница Отображает содержимое тега - один вкладыш?

У меня есть файл HTML, и меня интересуют данные, заключенные в теги <pre> </pre> . Есть ли однострочник, который может это сделать? Образец файла: <html> <title> Hello There! </title> <body> <pre>...

4031 просмотров

linux html-parsing unix cut grep

28.11.2022

libxml2 на iPhone

Я пытаюсь разобрать файл HTML с помощью libxml2. Обычно это работает нормально, но не в этом случае: <p> <b>Titles</b> (Some Text) <table> <tr> <td valign="top">...

630 просмотров

iphone html-parsing xpath libxml2

29.06.2023

Получить визуализированный текст из HTML (Delphi)

У меня есть HTML, и мне нужно извлечь текст со страницы. До сих пор я пытался использовать веб-браузер и отображать страницу, затем переходить к свойству документа и захватывать текст. Это работает, но только там, где поддерживается браузер...

4338 просмотров

html html-parsing delphi html-content-extraction

05.05.2022

Пуленепробиваемый SimpleXMLElement

Всем известно, что мы всегда должны использовать методы DOM вместо регулярных выражений для извлечения содержимого из HTML, но у меня такое чувство, что я никогда не смогу доверять расширению SimpleXML или подобным. Я сейчас кодирую реализацию...

4930 просмотров

php html-parsing simplexml domdocument

12.07.2022

Разбор HTML: системы классификации для взрослых

Я изучаю различные и (иногда устаревшие) стандарты рейтингов/классификаций, используемые в Интернете. т.е. PICS , ПОРОШОК , ICRA Какой стандарт наиболее популярен (количество сайтов, использующих его)? Есть ли библиотека С#, которая будет...

773 просмотров

c# html-parsing classification powder

07.10.2022

Получить список всех URL-адресов на веб-странице

Как лучше всего получить массив всех URL-адресов на веб-странице? и как бы мне это сделать?

5787 просмотров

c# regex html-parsing

06.08.2023

Как избежать утечки места при чтении HTML-документа с помощью HXT

Ссылка на усеченную версию образца документа Я пытаюсь извлечь большой кусок текста из последнего «pre», обработать его и вывести. Допустим, я хочу применить concatMap (unwords . take 62 . drop 11) . lines к тексту и выведите его....

256 просмотров

xml html html-parsing haskell

03.01.2024

Избавить html от тегов script и style с помощью BeautifulSoup?

У меня есть простой сценарий, в котором я извлекаю HTML-страницу, передаю ее в BeautifulSoup, чтобы удалить все теги сценария и стиля, а затем я хочу передать результат HTML другому методу. Есть простой способ сделать это? Просматривая...

4846 просмотров

python beautifulsoup html-parsing python-2.6

27.05.2022

Как разобрать и изменить файл HTML в Java

Я делаю проект, в котором мне нужно прочитать файл HTML и определить определенные теги, изменить содержимое тега и создать новый файл HTML. Есть ли библиотека, которая анализирует теги HTML и способна записывать теги обратно в новый файл?

9787 просмотров

java html html-parsing

05.07.2022

Разбор специальных символов HTML

Я ищу класс java для анализа всех специальных символов HTML. Я думаю, что это общая проблема, но я не могу найти быстрое решение прямо сейчас. Что я хочу получить: input: thè --> output: thè input: » input: &lraquo;...

1110 просмотров

java html web-scraping html-parsing

24.01.2023

JavaScript для анализа таблицы чисел HTML в массив

Я разбираю существующую таблицу HTML на веб-странице в массив чисел, чтобы позже передать объект графика. Я изучаю JavaScript, и неясно, как я должен перебирать значения данных в тегах HTML. Вот что я придумал: for (i = 0; i <...

6113 просмотров

javascript html-table html-parsing

03.11.2022

ColdFusion Regex для поиска пустых тегов html

Привет всем, я пытаюсь динамически удалить некоторые пустые теги html. Я новичок в Regex, и кажется, что движок для coldfusion не так надежен/похож на другие движки regex (например, javascript и as3). В чем хитрость создания регулярного выражения,...

730 просмотров

regex html-parsing coldfusion coldfusion-8

16.03.2023

HTML-разбор iPhone с использованием TouchXML и tidy

Я пытаюсь разобрать HTML с помощью TouchXML . Однако кажется, что данные, которые я хочу разобрать (я не контролирую источник, он загружен из Интернета), частично искажены - во время анализа я получаю различные ошибки. Поэтому кажется, что я должен...

1276 просмотров

iphone html-parsing touchxml

11.10.2022