Вопросы по теме 'pdf-extraction'

Не можете получить настоящие шрифты текстов с помощью itext?
Я пытался извлечь текст из pdf, и благодаря itext я могу извлечь весь текст. Однако я пытаюсь обнаружить шрифты заголовков и, используя эту информацию, планирую извлечь только те тексты между двумя конкретными заголовками. Например, в научной статье...
841 просмотров
schedule 24.11.2022

Tabula-py пропускает страницы из PDF-документа, который я пытаюсь извлечь
Я пытаюсь извлечь таблицы из многостраничного PDF-файла с помощью tabula-py, и хотя таблицы на некоторых страницах PDF извлекаются идеально, некоторые страницы полностью опускаются . Пропуски кажутся случайными и не соответствуют каким-либо...
2428 просмотров
schedule 30.08.2023

Как проверить, является ли PDF-файл отсканированным изображением или содержит текст
У меня есть большое количество файлов, некоторые из них представляют собой отсканированные изображения в PDF, а некоторые представляют собой полный / частичный текстовый PDF. Есть ли способ проверить эти файлы, чтобы убедиться, что мы обрабатываем...
14479 просмотров

Извлечение данных из файлов PDF с помощью R
Я пытаюсь извлечь данные (таблицы) из файлов PDF и сохранить их в виде фреймов данных. library(pdftools) library(tabulizerjars) library(tabulizer) library(tidyverse) f <- file.path("D:/Araratbank/Statement USD-pages-1.pdf") #using pdf tools...
189 просмотров
schedule 27.02.2024

Извлечение PDF без полей в json не работает должным образом для библиотеки Python camelot
Может ли кто-нибудь дать мне быстрый ответ/помощь, что, поскольку мы сталкиваемся с некоторой проблемой после извлечения pdf в json с использованием python camelot, не дает точного содержимого. некоторый контент отсутствует после извлечения.
130 просмотров
schedule 28.08.2022