Вопросы по теме 'lxml'

lxml удаляет теги ‹?xml › при разборе?
В настоящее время я работаю с разбором XML-документов (добавление элементов, добавление атрибутов и т.д.). Поэтому мне сначала нужно проанализировать XML, прежде чем работать над ним. Однако lxml , похоже, удаляет элемент <?xml ...> ....
4722 просмотров
schedule 11.05.2022

удалите все между двумя тегами, которые охватывают ветви дерева xml
Я пытаюсь удалить все в XML-документе между двумя тегами, используя python и lxml. проблема в том, что теги могут быть в разных ветвях дерева (но всегда на одной глубине) примерный документ может выглядеть так. <root> <p> Hello...
920 просмотров
schedule 05.02.2023

Манипулирование списком из запросов lxml xpath
Сегодня я попробовал lxml, так как получил очень неприятный html-вывод из определенного веб-сервиса, и я не хотел использовать модуль re, просто для изменений и изучения чего-то нового. И я это сделал, просматривая http://codespeak.net/lxml/ и...
7446 просмотров
schedule 04.05.2023

Как получить доступ к комментариям с помощью lxml
Я пытаюсь удалить комментарии из списка элементов, полученных с помощью lxml. Лучшее, что я смог сделать, это: no_comments=[element for element in element_list if 'HtmlComment' not in str(type(each))] Мне интересно, есть ли более прямой...
2027 просмотров
schedule 04.09.2022

Кодировка символов нарушена
Я пытаюсь разобрать файл, закодированный в utf-8 . Никакая операция не имеет проблем, кроме записи в файл (по крайней мере, я так думаю). Ниже приведен минимальный рабочий пример: from lxml import etree parser = etree.HTMLParser() tree =...
257 просмотров
schedule 11.04.2022

Получение последнего (новейшего) элемента с помощью lxml, python
Всем привет, за последние пару дней мне очень помогли решить мою проблему. У меня только один последний вопрос (надеюсь) :) Я пытаюсь получить последний элемент из моего xml и поместить его в переменную. Я использую django, python и библиотеку...
1689 просмотров
schedule 11.11.2022

lxml.etree и xml.etree.ElementTree добавляют пространства имен без префиксов (ns0, ns1 и т. д.)
Есть ли какое-либо решение для добавления пространств имен без префикса (я имею в виду эти ns0, ns1), которые работают со всеми реализациями etree, или есть рабочие решения для каждого из них? На данный момент у меня есть решения для: lxml —...
4261 просмотров
schedule 05.08.2023

Пожалуйста, помогите проанализировать эту html-таблицу, используя BeautifulSoup и lxml pythonic.
Я много искал о BeautifulSoup, и некоторые предложили lxml в качестве будущего BeautifulSoup, хотя это имеет смысл, мне трудно разобрать следующую таблицу из всего списка таблиц на веб-странице. Меня интересуют три столбца с различным количеством...
2844 просмотров
schedule 31.05.2022

Проблема Python lxml XPath
Я пытаюсь распечатать/сохранить HTML-код определенного элемента с веб-страницы. Я получил XPath запрошенного элемента из firebug. Все, что я хочу, это сохранить этот элемент в файл. Кажется, мне это не удалось. (пробовал XPath с /text() в конце...
5910 просмотров
schedule 12.04.2022

Невероятно простые вопросы lxml: получение HTML/строкового содержимого lxml.etree._Element?
Это настолько простой вопрос, что я не могу найти его в документах :-/ В следующих: img = house_tree.xpath('//img[@id="mainphoto"]')[0] Как получить HTML-код тега <img/> ? Я пытался добавить html_content() , но получаю...
26684 просмотров
schedule 24.04.2023

python lxml и метод iterparse
Скажем, у меня есть этот образец XML. <result> <field k='field1'> <value h='1'><text>text_value1</text></value> </field> <field k='field2'>...
5875 просмотров
schedule 25.05.2022

builtins.TypeError: должно быть str, а не байтами
Я преобразовал свои скрипты из Python 2.7 в 3.2, и у меня есть ошибка. # -*- coding: utf-8 -*- import time from datetime import date from lxml import etree from collections import OrderedDict # Create the root element page =...
263995 просмотров
schedule 22.07.2023

Удаление атрибутов пространства имен python из lxml.objectify.ObjectifiedElement
Возможный дубликат: При использовании lxml можно ли отображать XML без атрибутов пространства имен? Как я могу удалить атрибуты python из lxml.objectify.ObjectifiedElement ? Пример: In [1]: from lxml import etree, objectify In...
7323 просмотров

Как красиво напечатать HTML в файл с отступом
Я использую lxml.html для создания некоторого HTML. Я хочу красиво напечатать (с отступом) мой окончательный результат в html-файле. Как мне это сделать? Это то, что я пробовал и получил до сих пор (я относительно новичок в Python и lxml):...
98431 просмотров
schedule 06.08.2022

lxml XMLSyntaxError: префикс пространства имен по умолчанию не найден
Я использую lxml для чтения моего XML-файла. Я использую код, как показано ниже. Он отлично работает с lxml2.3 beta1, но с lxml2.3 выдает синтаксическую ошибку zn xml, как показано ниже. Я просмотрел примечания к выпуску для обеих версий, но не...
2258 просмотров
schedule 06.04.2023

Python + lxml: как найти пространство имен тега?
Я обрабатываю некоторые файлы HTML с помощью python + lxml. Некоторые из них были отредактированы с помощью MS Word, и у нас есть теги <p> , например, записанные как <o:p>&nbsp</o:p> . IE и Firefox не интерпретируют эти теги...
857 просмотров
schedule 20.04.2023

Как обстоят дела с https при использовании lxml?
Я использую lxml для анализа html-файлов с заданными URL-адресами. Например: link = 'https://abc.com/def' htmltree = lxml.html.parse(link) Мой код хорошо работает в большинстве случаев, с http:// . Однако я обнаружил, что для каждого...
2698 просмотров
schedule 01.07.2023

как удалить элемент в lxml
Мне нужно полностью удалить элементы на основе содержимого атрибута, используя python lxml. Пример: import lxml.etree as et xml=""" <groceries> <fruit state="rotten">apple</fruit> <fruit...
64685 просмотров
schedule 20.07.2023

как использовать пустые пространства имен в запросе lxml xpath?
У меня есть xml-документ в следующем формате: <feed xmlns="http://www.w3.org/2005/Atom" xmlns:openSearch="http://a9.com/-/spec/opensearchrss/1.0/" xmlns:gsa="http://schemas.google.com/gsa/2007"> ... <entry>...
14575 просмотров
schedule 22.02.2023

Xpath против DOM против BeautifulSoup против lxml против другого Какой самый быстрый подход к анализу веб-страницы?
Я знаю, как анализировать страницу с помощью Python. Мой вопрос в том, какой самый быстрый метод из всех методов синтаксического анализа, насколько он быстр от других? Известные мне методы синтаксического анализа — это Xpath, DOM, BeautifulSoup и...
4427 просмотров
schedule 05.06.2022