Мне нужно было бы удалить что-либо между тегами XML, особенно пробелы и символы новой строки.
Например, удаление пробелов и новостных лент из:
‹/node› \n‹node id="whatever"›
чтобы получить:
‹/node›‹node id="что угодно"›
Это не предназначено для синтаксического анализа XML вручную, а скорее для подготовки данных XML перед их синтаксическим анализом с помощью инструмента. Чтобы быть более конкретным, я использую Hpricot (Ruby) для разбора XML, и, к сожалению, в настоящее время мы застряли на версии 0.6.164, так что... я не знаю о более поздних версиях, но эта часто возвращает странные узлы. (Объекты), содержащие только пробелы и разрывы строк. Итак, идея состоит в том, чтобы очистить XML перед преобразованием его в документ Hpricot. Приветствуются альтернативные решения.
Пример из теста: NoMethodError: undefined method `children' for "\n":Hpricot::Text
Интересная часть здесь не в NoMethodError, потому что это нормально, а в том, что элемент Hpricot::Text содержит только перевод строки и ничего больше.