Прежде всего, я стремлюсь не к конкретному ответу на вопрос развития, а скорее к подходу к развитию.
Проблема, с которой я столкнулся, заключается в том, что у меня есть клиент с огромным количеством статей в PDF-файлах, около 150 статей в пятидесяти PDF-файлах в год за последние 20 лет. Все эти PDF-файлы собраны из Quark Express от людей с Mac (если эта информация имеет значение). Каждый раз, когда создается новый журнал в формате pdf, команда веб-разработчиков копирует и вставляет (!) Каждую статью в форму в Интернете (!), В т.ч. заголовок, содержание, ключевые слова, ссылки, авторское имя и т. д. Обычно один человек выполняет работу около трех полных дней.
Когда я там работал (меня уже нет, это было почти семь лет назад), я ускорил процесс в три раза, используя приложение для мониторинга буфера обмена и несколько простых PHP-скриптов на основе XML, которые взаимодействуют с сервером. Все, что вам нужно было сделать, это выделить текст, CTRL + C, выделить еще текст, CTRL + C, перейти в приложение (ALT + TAB), нажать «следующая статья» и повторить это. Но мы, или в основном я, по-прежнему проводим около пятидесяти дней в году, обрабатывая журналы в формате PDF.
Сейчас я через семь лет и собираюсь снова поговорить со своим старым боссом по дружеским причинам. Я знаю, что они все еще используют мои приложения (!). Но, возможно, неплохо было бы еще раз разобраться в их проблеме и посмотреть, могу ли я предложить проект кодирования, который мог бы им помочь?
Я никогда не использовал Quark Express, я только знаю, что это что-то похожее на MS Word, насколько я знаю о программном обеспечении. Я не очень хорошо знаком с незашифрованным извлеченным кодом / синтаксисом PDF.
Вкратце: есть ли в Quark Express определенные шаблоны компиляции, которые можно использовать в сценариях PDF для извлечения статей? Какие существуют «умные» инструменты, которые могут «учиться» на страницах pdf с аналогичной структурой, где находится содержание статьи? Существуют ли инструменты, такие как какие-то модули Quark Xpress, которые могут «инкапсулировать» или «пометить» статью вместе с помощью невидимого ссылочного тега, чтобы упростить извлечение для скриптов?
Люди, создающие эти PDF-файлы, выполняли свою работу последние 20 лет и не желали менять свой рабочий процесс, за исключением обновлений программного обеспечения. Любой дополнительный инструмент для них не должен мешать их рабочему процессу, иначе они просто откажутся от него.
Мне не нужен код; но просто некоторые описания того, что вы или другие люди, возможно, сделали в отношении других проблем с извлечением PDF. Лучшим ответом будет описание, возможно, нескольких методов или ссылки на внешние ссылки с описаниями случаев.