Извлечение абзаца из pdf

Я занимаюсь моделированием тем в электронной книге в формате pdf, и мне нужно извлекать текст абзацем за абзацем. Для этого я использую apache pdfBox, который эффективно извлекает текст из pdf.

PDFParser parser;
PDFTextStripper pdfStrip = null;
parsedText = pdfStrip.getText(pdDoc);

Но я не могу извлекать абзацы отдельно. Этот инструмент предоставляет способ установить идентификатор начала/конца абзаца, но для этого мне нужно знать идентификатор конца абзаца.

Есть ли способ сделать это или есть какой-то другой доступный инструмент, который может эффективно извлекать абзацы?


person jiteshnambiar    schedule 15.03.2011    source источник


Ответы (1)


PdfNitro — лучший инструмент, который я нашел для извлечения абзаца.

Единственная проблема с этим инструментом заключается в том, что он считает разрыв страницы разрывом абзаца, в остальном он работает хорошо. Этот инструмент доступен в 14-дневной пробной версии для тестирования.

person Jitesh    schedule 17.04.2011