Вопросы по теме 'pdf-extraction'
Не можете получить настоящие шрифты текстов с помощью itext?
Я пытался извлечь текст из pdf, и благодаря itext я могу извлечь весь текст. Однако я пытаюсь обнаружить шрифты заголовков и, используя эту информацию, планирую извлечь только те тексты между двумя конкретными заголовками. Например, в научной статье...
841 просмотров
schedule
24.11.2022
Tabula-py пропускает страницы из PDF-документа, который я пытаюсь извлечь
Я пытаюсь извлечь таблицы из многостраничного PDF-файла с помощью tabula-py, и хотя таблицы на некоторых страницах PDF извлекаются идеально, некоторые страницы полностью опускаются .
Пропуски кажутся случайными и не соответствуют каким-либо...
2428 просмотров
schedule
30.08.2023
Как проверить, является ли PDF-файл отсканированным изображением или содержит текст
У меня есть большое количество файлов, некоторые из них представляют собой отсканированные изображения в PDF, а некоторые представляют собой полный / частичный текстовый PDF.
Есть ли способ проверить эти файлы, чтобы убедиться, что мы обрабатываем...
14479 просмотров
schedule
10.04.2024
Извлечение данных из файлов PDF с помощью R
Я пытаюсь извлечь данные (таблицы) из файлов PDF и сохранить их в виде фреймов данных.
library(pdftools)
library(tabulizerjars)
library(tabulizer)
library(tidyverse)
f <- file.path("D:/Araratbank/Statement USD-pages-1.pdf")
#using pdf tools...
189 просмотров
schedule
27.02.2024
Извлечение PDF без полей в json не работает должным образом для библиотеки Python camelot
Может ли кто-нибудь дать мне быстрый ответ/помощь, что, поскольку мы сталкиваемся с некоторой проблемой после извлечения pdf в json с использованием python camelot, не дает точного содержимого. некоторый контент отсутствует после извлечения.
130 просмотров
schedule
28.08.2022