Вопросы по теме 'pdfminer'
python PDFminer анализирует только часть страницы
Я разбираю PDF-документ, используя модуль pdfminer python. Я просто хочу извлечь текст из этого документа.
Процесс идет отлично, но когда я извлекаю LTText* объектов, я понимаю, что не получаю весь текст внутри этого LTText* объекта....
1390 просмотров
schedule
28.06.2022
PyDev PDFMiner GAE: ImportError: нет модуля с именем pdfminer.converter
Я работаю над проектом GAE в PyDev. Я хотел бы использовать библиотеку PDFminer для преобразования файла PDF в текстовый файл.
Моя проблема в том, что когда я запускаю приложение, оно не работает и отображает это сообщение об ошибке: ImportError:...
863 просмотров
schedule
11.06.2022
pdfminer3k не имеет метода с именем create_pages в PDFPage
Поскольку я хочу перейти с python 2 на 3, я попытался работать с pdfmine.3kr в python 3.4. Вроде все отредактировали. Их журналы изменений не отражают внесенные ими изменения, но мне не удалось разобрать pdf с помощью pdfminer3k. Например:
Они...
8732 просмотров
schedule
03.06.2023
Как разблокировать защищенный (защищенный от чтения) PDF-файл в Python?
В Python я использую pdfminer для чтения текста из pdf с кодом под этим сообщением. Теперь я получаю сообщение об ошибке:
File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py", line 124, in get_pages
raise...
34584 просмотров
schedule
31.07.2022
pdfminer — ImportError: нет модуля с именем pdfminer.pdfdocument
Я пытаюсь установить pdfMiner для работы с CollectiveAccess. Мой хост (pair.com) дал мне следующую информацию, чтобы помочь в этом квесте:
При компиляции, скорее всего, потребуется указать при установке использовать пространство вашей учетной...
31335 просмотров
schedule
28.12.2022
Читать все типы файлов в Python
Я пытаюсь извлечь информацию из файлов разных типов в python (.pdf .doc .docx) и преобразовать в .txt, но при обработке разных файлов я получаю место и новые строки, когда они не требуются, и многие другие проблемы. Я пробовал PyPDF2 и PDF-менеджер....
502 просмотров
schedule
03.02.2024
TypeError при преобразовании pdf в txt файл
Я написал функцию, которая преобразует каждый PDF-файл из каталога в текст, и я хочу получить преобразованный текст из PDF-файла в виде txt-файлов. Я получаю сообщение об ошибке «TypeError: ожидаемая строка, байты или объект os.PathLike, а не кортеж»...
138 просмотров
schedule
30.10.2022
Как декодировать вывод LTTextLine.get_text()?
Я новичок в PDFminer. Я заметил, что некоторые символы/знаки препинания не выводятся в буквальном виде при использовании команды PDFminer get_text(). Например, «-» получился как «\xe2\x80\x93», а одинарные кавычки ' получился как «\xe2\x80\x99»....
100 просмотров
schedule
27.11.2022
Как проверить, является ли PDF-файл отсканированным изображением или содержит текст
У меня есть большое количество файлов, некоторые из них представляют собой отсканированные изображения в PDF, а некоторые представляют собой полный / частичный текстовый PDF.
Есть ли способ проверить эти файлы, чтобы убедиться, что мы обрабатываем...
14479 просмотров
schedule
10.04.2024
Как извлечь текст из онлайн PDF с помощью pdfminer в python
Я хочу извлечь текст из онлайн-PDF с помощью pdfminer, используя приведенный ниже код, он не показывает ошибок, но ничего не выводит
from pdfminer.pdfpage import PDFPage
from urllib import request
from pdfminer.pdfinterp import PDFResourceManager...
762 просмотров
schedule
06.12.2022
Как объединить элементы с одним и тем же тегом в одном родительском элементе в Python XML, несмотря на их атрибуты?
У меня есть XML, структурированный следующим образом:
<?xml version="1.0" encoding="utf-8" ?>
<pages>
<page id="1" bbox="0.000,0.000,462.047,680.315" rotate="0">
<textbox id="0"...
41 просмотров
schedule
16.10.2022
Как конвертировать из PDF в TXT без непреднамеренных разрывов строк?
Я пытаюсь преобразовать очень чистый файл PDF в файл txt, используя python. Я пробовал использовать pyPDF2 и PDFMiner, оба отлично работали при распознавании текста.
Однако, поскольку в PDF строки переносятся, извлеченный файл .txt имеет...
70 просмотров
schedule
22.09.2023