Вопросы по теме 'pdfminer'

python PDFminer анализирует только часть страницы
Я разбираю PDF-документ, используя модуль pdfminer python. Я просто хочу извлечь текст из этого документа. Процесс идет отлично, но когда я извлекаю LTText* объектов, я понимаю, что не получаю весь текст внутри этого LTText* объекта....
1390 просмотров
schedule 28.06.2022

PyDev PDFMiner GAE: ImportError: нет модуля с именем pdfminer.converter
Я работаю над проектом GAE в PyDev. Я хотел бы использовать библиотеку PDFminer для преобразования файла PDF в текстовый файл. Моя проблема в том, что когда я запускаю приложение, оно не работает и отображает это сообщение об ошибке: ImportError:...
863 просмотров
schedule 11.06.2022

pdfminer3k не имеет метода с именем create_pages в PDFPage
Поскольку я хочу перейти с python 2 на 3, я попытался работать с pdfmine.3kr в python 3.4. Вроде все отредактировали. Их журналы изменений не отражают внесенные ими изменения, но мне не удалось разобрать pdf с помощью pdfminer3k. Например: Они...
8732 просмотров
schedule 03.06.2023

Как разблокировать защищенный (защищенный от чтения) PDF-файл в Python?
В Python я использую pdfminer для чтения текста из pdf с кодом под этим сообщением. Теперь я получаю сообщение об ошибке: File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py", line 124, in get_pages raise...
34584 просмотров
schedule 31.07.2022

pdfminer — ImportError: нет модуля с именем pdfminer.pdfdocument
Я пытаюсь установить pdfMiner для работы с CollectiveAccess. Мой хост (pair.com) дал мне следующую информацию, чтобы помочь в этом квесте: При компиляции, скорее всего, потребуется указать при установке использовать пространство вашей учетной...
31335 просмотров
schedule 28.12.2022

Читать все типы файлов в Python
Я пытаюсь извлечь информацию из файлов разных типов в python (.pdf .doc .docx) и преобразовать в .txt, но при обработке разных файлов я получаю место и новые строки, когда они не требуются, и многие другие проблемы. Я пробовал PyPDF2 и PDF-менеджер....
502 просмотров
schedule 03.02.2024

TypeError при преобразовании pdf в txt файл
Я написал функцию, которая преобразует каждый PDF-файл из каталога в текст, и я хочу получить преобразованный текст из PDF-файла в виде txt-файлов. Я получаю сообщение об ошибке «TypeError: ожидаемая строка, байты или объект os.PathLike, а не кортеж»...
138 просмотров

Как декодировать вывод LTTextLine.get_text()?
Я новичок в PDFminer. Я заметил, что некоторые символы/знаки препинания не выводятся в буквальном виде при использовании команды PDFminer get_text(). Например, «-» получился как «\xe2\x80\x93», а одинарные кавычки ' получился как «\xe2\x80\x99»....
100 просмотров
schedule 27.11.2022

Как проверить, является ли PDF-файл отсканированным изображением или содержит текст
У меня есть большое количество файлов, некоторые из них представляют собой отсканированные изображения в PDF, а некоторые представляют собой полный / частичный текстовый PDF. Есть ли способ проверить эти файлы, чтобы убедиться, что мы обрабатываем...
14479 просмотров

Как извлечь текст из онлайн PDF с помощью pdfminer в python
Я хочу извлечь текст из онлайн-PDF с помощью pdfminer, используя приведенный ниже код, он не показывает ошибок, но ничего не выводит from pdfminer.pdfpage import PDFPage from urllib import request from pdfminer.pdfinterp import PDFResourceManager...
762 просмотров
schedule 06.12.2022

Как объединить элементы с одним и тем же тегом в одном родительском элементе в Python XML, несмотря на их атрибуты?
У меня есть XML, структурированный следующим образом: <?xml version="1.0" encoding="utf-8" ?> <pages> <page id="1" bbox="0.000,0.000,462.047,680.315" rotate="0"> <textbox id="0"...
41 просмотров
schedule 16.10.2022

Как конвертировать из PDF в TXT без непреднамеренных разрывов строк?
Я пытаюсь преобразовать очень чистый файл PDF в файл txt, используя python. Я пробовал использовать pyPDF2 и PDFMiner, оба отлично работали при распознавании текста. Однако, поскольку в PDF строки переносятся, извлеченный файл .txt имеет...
70 просмотров
schedule 22.09.2023