Извлечение абзаца из pdf

Я занимаюсь моделированием тем в электронной книге в формате pdf, и мне нужно извлекать текст абзацем за абзацем. Для этого я использую apache pdfBox, который эффективно извлекает текст из pdf.

PDFParser parser;
PDFTextStripper pdfStrip = null;
parsedText = pdfStrip.getText(pdDoc);

Но я не могу извлекать абзацы отдельно. Этот инструмент предоставляет способ установить идентификатор начала/конца абзаца, но для этого мне нужно знать идентификатор конца абзаца.

Есть ли способ сделать это или есть какой-то другой доступный инструмент, который может эффективно извлекать абзацы?

pdf extract pdfbox

jiteshnambiar 15.03.2011 источник

Ответы (1)

arrow_upward
1
arrow_downward

PdfNitro — лучший инструмент, который я нашел для извлечения абзаца.

Единственная проблема с этим инструментом заключается в том, что он считает разрыв страницы разрывом абзаца, в остальном он работает хорошо. Этот инструмент доступен в 14-дневной пробной версии для тестирования.

Jitesh 17.04.2011

Извлечение абзаца из pdf

Ответы (1)

Вопросы по теме