Я занимаюсь моделированием тем в электронной книге в формате pdf, и мне нужно извлекать текст абзацем за абзацем. Для этого я использую apache pdfBox, который эффективно извлекает текст из pdf.
PDFParser parser;
PDFTextStripper pdfStrip = null;
parsedText = pdfStrip.getText(pdDoc);
Но я не могу извлекать абзацы отдельно. Этот инструмент предоставляет способ установить идентификатор начала/конца абзаца, но для этого мне нужно знать идентификатор конца абзаца.
Есть ли способ сделать это или есть какой-то другой доступный инструмент, который может эффективно извлекать абзацы?