Я искал в высоком и низком порядке, pyPdf, pyPdf2, pdfminer и тому подобное, все, что я хочу, - это прочитать закладки PDF-файла и соответствующие им страницы, так что если закладка «глава 1» находится на странице 5, и я напишите print (закладки) он напечатает "главы 1, 5" или в том направлении какие идеи? Благодарность!
Как я могу прочитать закладки из pdf на Python?
comment
Вам это помогает? stackoverflow.com/questions/8329748/ (первое попадание в Google ...)
- person Jongware   schedule 30.12.2013
comment
спасибо, но, как указано там, это не дает номеров страниц, только объекты, например [{'/ Title': '1. \ tPreface: Education transformed', '/ Left': 88, '/ Type': '/ XYZ', '/ Top': 477.60000, '/ Zoom': ‹объект pyPdf.generic.NullObject в 0x021ECF30›, '/ Page': IndirectObject (17, 0)}], но не номер страницы
- person user3084455   schedule 30.12.2013
Ответы (1)
Вы можете использовать инструмент командной строки cpdf, а затем проанализировать результаты:
cpdf -list-bookmarks file.pdf
произведет что-то вроде
0 "Purpose" 1
0 "To help students visually organize similarities and differences between three ideas, objects, or sets." 1
0 "To increase awareness of relationships between ideas, objects, or sets" 2 open
1 "Teacher Instructions" 3
где столбцы расположены по уровням в дереве, текст закладки, номер страницы, на которую она указывает.
person
johnwhitington
schedule
30.12.2013
выглядит многообещающе, как мне использовать этот инструмент с Python? можешь показать рабочий сценарий?
- person user3084455; 01.01.2014