Я почти ничего не знаю о сжатии, так что потерпите меня (это, наверное, глупый и до боли очевидный вопрос).
Допустим, у меня есть XML-файл с несколькими тегами.
<verylongtagnumberone>
<verylongtagnumbertwo>
text
</verylongtagnumbertwo>
</verylongtagnumberone>
Теперь предположим, что у меня есть куча этих очень длинных тегов со многими атрибутами в нескольких моих XML-файлах. Мне нужно сжать их до минимально возможного размера. Лучшим способом было бы использовать алгоритм, специфичный для XML, который присваивает отдельным тегам псевдонимы, такие как vlt1 или vlt2. Однако это не будет таким «открытым» способом, как я пытаюсь пойти, и я хочу использовать общий алгоритм, такой как DEFLATE или LZ. Также помогает, если архив был файлом .zip.
Поскольку я имею дело с обычным текстом (без двоичных файлов, таких как изображения), мне нужен алгоритм, который подходит для обычного текста. Какой из них дает наименьший размер файла (предпочтительны алгоритмы без потерь)?
Между прочим, сценарий таков: я создаю стандарт для документов, таких как ODF или MS Office XML, которые содержат файлы XML, упакованные в .zip.
РЕДАКТИРОВАТЬ: «Шифрование» было опечаткой; он должен быть «сжатым».