Я использую PyPDF2 для чтения файлов PDF в python. Хотя она хорошо работает для языков на английском и европейских языках (с алфавитами на английском языке), библиотека не может читать азиатские языки, такие как японский и китайский. Я пробовал encode('utf-8')
, decode('utf-8')
, но ничего не работает. Он просто печатает пустую строку при извлечении текста.
Я пробовал другие библиотеки, такие как texttract и PDFMiner, но пока безуспешно.
Когда я копирую текст из PDF и вставляю в блокнот, символы превращаются в какой-то текст произвольного формата (вероятно, в другой кодировке).
def convert_pdf_to_text(filename):
text = ''
pdf = PyPDF2.PdfFileReader(open(filename, "rb"))
if pdf.isEncrypted:
pdf.decrypt('')
for page in pdf.pages:
text = text + page.extractText()
return text
Может кто-то указать мне верное направление?