У меня проблема с SAX и Java.
Я разбираю xml-файл базы данных цифровой библиотеки dblp (который перечисляет журнал, конференции, статьи). Файл XML очень большой (> 700 МБ).
Однако моя проблема заключается в том, что при возврате обратного вызова characters(), если извлеченная строка содержит несколько объектов, метод возвращает только строку, начинающуюся с последних символов объекта найден.
т. е.: Rüdiger Mecke
— это исходное имя автора, заключенное между тегами <author>
.
üdiger Mecke
это результат
(Строка, возвращаемая методом characters (ch[], start, length)).
Я бы хотел знать:
- как запретить PARser автоматически разрешать сущности?
- как решить проблему с усеченными символами, описанную ранее?