Я все утро пытался добавить номера страниц в pdf-документ, но не могу понять. Я хотел бы использовать python с pyPdf или reportlab.
У кого-нибудь есть идеи?
Я все утро пытался добавить номера страниц в pdf-документ, но не могу понять. Я хотел бы использовать python с pyPdf или reportlab.
У кого-нибудь есть идеи?
Вот мой код Python для добавления номера страницы в файл PDF. Я использовал как pyPdf2, так и reportlab.
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
helpDoc = '''
Add Page Number to PDF file with Python
Python 给 PDF 添加 页码
usage:
python addPageNumberToPDF.py [PDF path]
require:
pip install reportlab pypdf2
Support both Python2/3, But more recommend Python3
tips:
* output file will save at pdfWithNumbers/[PDF path]_page.pdf
* only support A4 size PDF
* tested on Python2/Python3@ubuntu
* more large size of PDF require more RAM
* if segmentation fault, plaese try use Python 3
* if generate PDF document is damaged, plaese try use Python 3
Author:
Lei Yang ([email protected])
GitHub:
https://gist.github.com/DIYer22/b9ede6b5b96109788a47973649645c1f
'''
print(helpDoc)
import reportlab
from reportlab.lib.units import mm
from reportlab.pdfgen import canvas
from PyPDF2 import PdfFileWriter, PdfFileReader
def createPagePdf(num, tmp):
c = canvas.Canvas(tmp)
for i in range(1,num+1):
c.drawString((210//2)*mm, (4)*mm, str(i))
c.showPage()
c.save()
return
with open(tmp, 'rb') as f:
pdf = PdfFileReader(f)
layer = pdf.getPage(0)
return layer
if __name__ == "__main__":
pass
import sys,os
path = 'MLDS17f.pdf'
# path = '1.pdf'
if len(sys.argv) == 1:
if not os.path.isfile(path):
sys.exit(1)
else:
path = sys.argv[1]
base = os.path.basename(path)
tmp = "__tmp.pdf"
batch = 10
batch = 0
output = PdfFileWriter()
with open(path, 'rb') as f:
pdf = PdfFileReader(f,strict=False)
n = pdf.getNumPages()
if batch == 0:
batch = -n
createPagePdf(n,tmp)
if not os.path.isdir('pdfWithNumbers/'):
os.mkdir('pdfWithNumbers/')
with open(tmp, 'rb') as ftmp:
numberPdf = PdfFileReader(ftmp)
for p in range(n):
if not p%batch and p:
newpath = path.replace(base, 'pdfWithNumbers/'+ base[:-4] + '_page_%d'%(p//batch) + path[-4:])
with open(newpath, 'wb') as f:
output.write(f)
output = PdfFileWriter()
# sys.stdout.write('\rpage: %d of %d'%(p, n))
print('page: %d of %d'%(p, n))
page = pdf.getPage(p)
numberLayer = numberPdf.getPage(p)
page.mergePage(numberLayer)
output.addPage(page)
if output.getNumPages():
newpath = path.replace(base, 'pdfWithNumbers/' + base[:-4] + '_page_%d'%(p//batch + 1) + path[-4:])
with open(newpath, 'wb') as f:
output.write(f)
os.remove(tmp)
проверить последнюю версию на моем GitHub
То, что вы хотите сделать, очень похоже на добавление водяных знаков в PDF, за исключением того, что вы размещаете разные водяные знаки на каждой странице.
pdfrw (Отказ от ответственности: я являюсь автором) будет выполнять функцию водяного знака (и имеет пример водяного знака). Вы можете использовать reportlab для программного создания PDF-файла, который имеет только нужную нумерацию страниц — по одной для каждой страницы в целевом документе, а затем использовать pdfrw для наложения каждой страницы этого документа поверх исходного документа. Когда вы используете pdfrw, вы можете захотеть повторно использовать исходный трейлер PDF, чтобы сохранить закладки и т. д. Если вы посмотрите на пример водяного знака pdfrw, он покажет вам, как это сделать.
Поскольку это оба Python, вы можете использовать их из одной и той же программы и (например) использовать pdfrw, чтобы выяснить, сколько страниц вам нужно сгенерировать из reportlab.