Вопросы по теме 'pdf-scraping'
Работа с таблицами в pdf с использованием python
Я работаю над файлом PDF. В этом pdf-файле есть несколько таблиц. Судя по именам таблиц, указанным в pdf-файле, я хотел получить данные из этой таблицы с помощью python.
Я работал над анализом html, xlm, но никогда не работал с pdf. Может ли...
12259 просмотров
schedule
15.08.2022
Как разблокировать защищенный (защищенный от чтения) PDF-файл в Python?
В Python я использую pdfminer для чтения текста из pdf с кодом под этим сообщением. Теперь я получаю сообщение об ошибке:
File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py", line 124, in get_pages
raise...
34584 просмотров
schedule
31.07.2022
Извлечение/идентификация таблиц из PDF Python
Существуют ли библиотеки с открытым исходным кодом, поддерживающие идентификацию и извлечение таблиц?
Под этим я подразумеваю:
Определить, что структура таблицы существует
Классифицировать таблицу по ее содержимому
Извлеките данные из...
106335 просмотров
schedule
23.04.2023
Извлечение текста Python PDF — невозможно извлечь из определенного документа с помощью pdfminer/texttract
Я использую Python для выполнения проекта, который включает в себя извлечение текста из многих документов PDF, что интересно, я столкнулся с документом, который не может быть проанализирован ни одним из этих проектов:...
528 просмотров
schedule
02.09.2022
Заголовки не извлекаются из PDF при извлечении данных таблицы из PDF с помощью камелота
Я использую камелот для извлечения данных таблицы, однако заголовок не извлекается как часть PDF.
Прикрепление целевой PDF-ссылки ниже и целевой таблицы находятся на страницах 3 и 4, которые необходимо извлечь....
1581 просмотров
schedule
20.05.2024
Скопируйте данные веб-сайта с помощью SendKeys (^a) и вставьте в Excel
У меня есть код VBA, где я могу просматривать веб-страницы, но кнопки Sendkeys "^a", "^c" не работают. Пробовал несколько раз, но безуспешно.
Пожалуйста, предложите.
Используя этот код:
Set DestinationWorksheet = ActiveSheet
Dim myURL As...
460 просмотров
schedule
17.11.2023
Как преобразовать отсканированный PDF-файл в редактируемый PDF-файл с помощью python?
Мне просто нужно знать, можем ли мы преобразовать отсканированный файл PDF в редактируемый файл PDF с помощью python. Я знаю пару библиотек, таких как pytesseract, pyocr . Руководство в этом отношении будет высоко оценено. Спасибо
428 просмотров
schedule
03.06.2024
Очистка PDF-файлов Python
Задача:
PDF-файл, который представляет собой банковскую выписку, содержит столбцы, например (Дата, Описание, Депозиты, Снятие средств, Баланс), анализируя столбцы с соответствующими полями и экспортируя эти данные в формате CSV. PDF .
Мой код:...
77 просмотров
schedule
30.11.2022