Как я могу прочитать закладки из pdf на Python?

Я искал в высоком и низком порядке, pyPdf, pyPdf2, pdfminer и тому подобное, все, что я хочу, - это прочитать закладки PDF-файла и соответствующие им страницы, так что если закладка «глава 1» находится на странице 5, и я напишите print (закладки) он напечатает "главы 1, 5" или в том направлении какие идеи? Благодарность!


person user3084455    schedule 29.12.2013    source источник
comment
Вам это помогает? stackoverflow.com/questions/8329748/ (первое попадание в Google ...)   -  person Jongware    schedule 30.12.2013
comment
спасибо, но, как указано там, это не дает номеров страниц, только объекты, например [{'/ Title': '1. \ tPreface: Education transformed', '/ Left': 88, '/ Type': '/ XYZ', '/ Top': 477.60000, '/ Zoom': ‹объект pyPdf.generic.NullObject в 0x021ECF30›, '/ Page': IndirectObject (17, 0)}], но не номер страницы   -  person user3084455    schedule 30.12.2013


Ответы (1)


Вы можете использовать инструмент командной строки cpdf, а затем проанализировать результаты:

cpdf -list-bookmarks file.pdf

произведет что-то вроде

0 "Purpose" 1 
0 "To help students visually organize similarities and differences between three ideas, objects, or sets." 1 
0 "To increase awareness of relationships between ideas, objects, or sets" 2 open
1 "Teacher Instructions" 3

где столбцы расположены по уровням в дереве, текст закладки, номер страницы, на которую она указывает.

person johnwhitington    schedule 30.12.2013
comment
выглядит многообещающе, как мне использовать этот инструмент с Python? можешь показать рабочий сценарий? - person user3084455; 01.01.2014