Публикации по теме pdfminer

Вопросы по теме 'pdfminer'

python PDFminer анализирует только часть страницы

Я разбираю PDF-документ, используя модуль pdfminer python. Я просто хочу извлечь текст из этого документа. Процесс идет отлично, но когда я извлекаю LTText* объектов, я понимаю, что не получаю весь текст внутри этого LTText* объекта....

1390 просмотров

28.06.2022

PyDev PDFMiner GAE: ImportError: нет модуля с именем pdfminer.converter

Я работаю над проектом GAE в PyDev. Я хотел бы использовать библиотеку PDFminer для преобразования файла PDF в текстовый файл. Моя проблема в том, что когда я запускаю приложение, оно не работает и отображает это сообщение об ошибке: ImportError:...

863 просмотров

google-app-engine pydev pdfminer

11.06.2022

pdfminer3k не имеет метода с именем create_pages в PDFPage

Поскольку я хочу перейти с python 2 на 3, я попытался работать с pdfmine.3kr в python 3.4. Вроде все отредактировали. Их журналы изменений не отражают внесенные ими изменения, но мне не удалось разобрать pdf с помощью pdfminer3k. Например: Они...

8732 просмотров

python pdfminer

03.06.2023

Как разблокировать защищенный (защищенный от чтения) PDF-файл в Python?

В Python я использую pdfminer для чтения текста из pdf с кодом под этим сообщением. Теперь я получаю сообщение об ошибке: File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py", line 124, in get_pages raise...

34584 просмотров

python pdf pdfminer pdf-scraping

31.07.2022

pdfminer — ImportError: нет модуля с именем pdfminer.pdfdocument

Я пытаюсь установить pdfMiner для работы с CollectiveAccess. Мой хост (pair.com) дал мне следующую информацию, чтобы помочь в этом квесте: При компиляции, скорее всего, потребуется указать при установке использовать пространство вашей учетной...

31335 просмотров

python pdfminer

28.12.2022

Читать все типы файлов в Python

Я пытаюсь извлечь информацию из файлов разных типов в python (.pdf .doc .docx) и преобразовать в .txt, но при обработке разных файлов я получаю место и новые строки, когда они не требуются, и многие другие проблемы. Я пробовал PyPDF2 и PDF-менеджер....

502 просмотров

python pdf pypdf2 pdfminer pypdf

03.02.2024

TypeError при преобразовании pdf в txt файл

Я написал функцию, которая преобразует каждый PDF-файл из каталога в текст, и я хочу получить преобразованный текст из PDF-файла в виде txt-файлов. Я получаю сообщение об ошибке «TypeError: ожидаемая строка, байты или объект os.PathLike, а не кортеж»...

138 просмотров

python typeerror file-handling pdfminer pdftotext

30.10.2022

Как декодировать вывод LTTextLine.get_text()?

Я новичок в PDFminer. Я заметил, что некоторые символы/знаки препинания не выводятся в буквальном виде при использовании команды PDFminer get_text(). Например, «-» получился как «\xe2\x80\x93», а одинарные кавычки ' получился как «\xe2\x80\x99»....

100 просмотров

python pdfminer

27.11.2022

Как проверить, является ли PDF-файл отсканированным изображением или содержит текст

У меня есть большое количество файлов, некоторые из них представляют собой отсканированные изображения в PDF, а некоторые представляют собой полный / частичный текстовый PDF. Есть ли способ проверить эти файлы, чтобы убедиться, что мы обрабатываем...

14479 просмотров

python-3.x python pypdf2 pdfminer pdf-extraction

10.04.2024

Как извлечь текст из онлайн PDF с помощью pdfminer в python

Я хочу извлечь текст из онлайн-PDF с помощью pdfminer, используя приведенный ниже код, он не показывает ошибок, но ничего не выводит from pdfminer.pdfpage import PDFPage from urllib import request from pdfminer.pdfinterp import PDFResourceManager...

762 просмотров

python web-scraping pdfminer

06.12.2022

Как объединить элементы с одним и тем же тегом в одном родительском элементе в Python XML, несмотря на их атрибуты?

У меня есть XML, структурированный следующим образом: <?xml version="1.0" encoding="utf-8" ?> <pages> <page id="1" bbox="0.000,0.000,462.047,680.315" rotate="0"> <textbox id="0"...

41 просмотров

python xml pdf elementtree pdfminer

16.10.2022

Как конвертировать из PDF в TXT без непреднамеренных разрывов строк?

Я пытаюсь преобразовать очень чистый файл PDF в файл txt, используя python. Я пробовал использовать pyPDF2 и PDFMiner, оба отлично работали при распознавании текста. Однако, поскольку в PDF строки переносятся, извлеченный файл .txt имеет...

70 просмотров

python-3.x python pdf pypdf2 pdfminer

22.09.2023