Если я правильно понимаю, текст в формате PDF хранится позиционно, поэтому он не имеет понятия строк или столбцов. Это означает, что вы должны использовать эвристику, основанную на «вероятности», что вы читаете из другого столбца.
Вы можете попробовать сделать это, сравнив расстояние между словами. (Я не знаком с интерфейсом ITextSharp, поэтому, пожалуйста, простите меня, если я упоминаю то, на что он не способен... В основном я знаком с pdfNet.
Другая идея, которая только что пришла мне в голову, заключается в том, что если в тексте есть визуальные подсказки, такие как вертикальные линии, разделяющие столбцы. Если это так, вы должны придумать эвристику, чтобы определить, находится ли текст слева или справа от строк столбца.
...
Однако лучше всего, если возможно, получить данные в более удобном для базы данных формате. Это, вероятно, избавит вас от душевных страданий в долгосрочной перспективе.
-- Джейсон
person
Jason D
schedule
26.11.2009