Вопросы по теме 'pdf-scraping'

Работа с таблицами в pdf с использованием python
Я работаю над файлом PDF. В этом pdf-файле есть несколько таблиц. Судя по именам таблиц, указанным в pdf-файле, я хотел получить данные из этой таблицы с помощью python. Я работал над анализом html, xlm, но никогда не работал с pdf. Может ли...
12259 просмотров
schedule 15.08.2022

Как разблокировать защищенный (защищенный от чтения) PDF-файл в Python?
В Python я использую pdfminer для чтения текста из pdf с кодом под этим сообщением. Теперь я получаю сообщение об ошибке: File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py", line 124, in get_pages raise...
34584 просмотров
schedule 31.07.2022

Извлечение/идентификация таблиц из PDF Python
Существуют ли библиотеки с открытым исходным кодом, поддерживающие идентификацию и извлечение таблиц? Под этим я подразумеваю: Определить, что структура таблицы существует Классифицировать таблицу по ее содержимому Извлеките данные из...
106335 просмотров
schedule 23.04.2023

Извлечение текста Python PDF — невозможно извлечь из определенного документа с помощью pdfminer/texttract
Я использую Python для выполнения проекта, который включает в себя извлечение текста из многих документов PDF, что интересно, я столкнулся с документом, который не может быть проанализирован ни одним из этих проектов:...
528 просмотров
schedule 02.09.2022

Заголовки не извлекаются из PDF при извлечении данных таблицы из PDF с помощью камелота
Я использую камелот для извлечения данных таблицы, однако заголовок не извлекается как часть PDF. Прикрепление целевой PDF-ссылки ниже и целевой таблицы находятся на страницах 3 и 4, которые необходимо извлечь....
1581 просмотров
schedule 20.05.2024

Скопируйте данные веб-сайта с помощью SendKeys (^a) и вставьте в Excel
У меня есть код VBA, где я могу просматривать веб-страницы, но кнопки Sendkeys "^a", "^c" не работают. Пробовал несколько раз, но безуспешно. Пожалуйста, предложите. Используя этот код: Set DestinationWorksheet = ActiveSheet Dim myURL As...
460 просмотров
schedule 17.11.2023

Как преобразовать отсканированный PDF-файл в редактируемый PDF-файл с помощью python?
Мне просто нужно знать, можем ли мы преобразовать отсканированный файл PDF в редактируемый файл PDF с помощью python. Я знаю пару библиотек, таких как pytesseract, pyocr . Руководство в этом отношении будет высоко оценено. Спасибо
428 просмотров
schedule 03.06.2024

Очистка PDF-файлов Python
Задача: PDF-файл, который представляет собой банковскую выписку, содержит столбцы, например (Дата, Описание, Депозиты, Снятие средств, Баланс), анализируя столбцы с соответствующими полями и экспортируя эти данные в формате CSV. PDF . Мой код:...
77 просмотров
schedule 30.11.2022