Мой PDF-файл содержит список людей, и в настоящее время я ищу идеальное решение, чтобы привлечь этих людей, но в некоторых случаях я в конечном итоге прочитал это предложение:
Это невозможно, потому что PDF-файлы не имеют структуры.
Теперь дело в том, что есть PDF-файлы с тегами, которые показывают вам «структуру» вашего PDF-файла. В моем случае у меня есть PDF-файл с тегами, в котором каждое значение человека имеет свою собственную строку, а каждый человек находится в столбце. Это означает, что существует / должен быть простой способ проанализировать эту «таблицу» в моем PDF-файле, чтобы получить значение каждого человека, верно?
Итак, мой вопрос: если у PDF-файлов с тегами есть структура, то как я могу извлечь из этого выгоду, чтобы я мог читать все нужные мне значения?
(Небольшой побочный вопрос: используют ли приложения PDF в Excel теги из PDF для создания файла Excel?)
ИЗМЕНИТЬ №1:
Я уже пробовал предложенный вами способ @Lara с SyncFusion, но проблема в строке, которую я получаю:
John Peter Smith Smithstrasse 1 0101 Smithikon am See 010 010 01 01 020 020 02 02
С таким выводом невозможно использовать Regex. Проблема в том, что вы никогда не узнаете, принадлежит ли Peter
в данном случае имени или фамилии, а Smith
может быть частью улицы. Вот почему я не могу его использовать, и поэтому я ищу решение, в котором я могу использовать теги в PDF. Все хорошо разделено, поэтому мне нужен только способ получить значения из тегов.
РЕДАКТИРОВАТЬ №2: Как пожелал @Balasubramanian, вот пример PDF-файла с тегами: http://www.sh.ch/fileadmin/Redaktoren/Dokumente/Aufsichtsbehoerde_ueber_das_Anwaltswesen/Verzeichnis_SH_pdfnwaelte
Этот PDF-файл с синхронизацией дает именно тот результат, который я добавляю в Edit # 1.
У меня нет особых требований к выводу, поэтому не имеет значения, получаю ли я данные в файле JSON, массиве или чем-то подобном. С другой стороны, важно то, что каждая ценность каждого человека отделена, чтобы я мог получить эти значения. Но большой вопрос в том, как я могу это сделать. Теги должны быть где-то сохранены в файле PDF (метаданные?).