Извлечение статей из журналов PDF

Прежде всего, я стремлюсь не к конкретному ответу на вопрос развития, а скорее к подходу к развитию.

Проблема, с которой я столкнулся, заключается в том, что у меня есть клиент с огромным количеством статей в PDF-файлах, около 150 статей в пятидесяти PDF-файлах в год за последние 20 лет. Все эти PDF-файлы собраны из Quark Express от людей с Mac (если эта информация имеет значение). Каждый раз, когда создается новый журнал в формате pdf, команда веб-разработчиков копирует и вставляет (!) Каждую статью в форму в Интернете (!), В т.ч. заголовок, содержание, ключевые слова, ссылки, авторское имя и т. д. Обычно один человек выполняет работу около трех полных дней.

Когда я там работал (меня уже нет, это было почти семь лет назад), я ускорил процесс в три раза, используя приложение для мониторинга буфера обмена и несколько простых PHP-скриптов на основе XML, которые взаимодействуют с сервером. Все, что вам нужно было сделать, это выделить текст, CTRL + C, выделить еще текст, CTRL + C, перейти в приложение (ALT + TAB), нажать «следующая статья» и повторить это. Но мы, или в основном я, по-прежнему проводим около пятидесяти дней в году, обрабатывая журналы в формате PDF.

Сейчас я через семь лет и собираюсь снова поговорить со своим старым боссом по дружеским причинам. Я знаю, что они все еще используют мои приложения (!). Но, возможно, неплохо было бы еще раз разобраться в их проблеме и посмотреть, могу ли я предложить проект кодирования, который мог бы им помочь?

Я никогда не использовал Quark Express, я только знаю, что это что-то похожее на MS Word, насколько я знаю о программном обеспечении. Я не очень хорошо знаком с незашифрованным извлеченным кодом / синтаксисом PDF.

Вкратце: есть ли в Quark Express определенные шаблоны компиляции, которые можно использовать в сценариях PDF для извлечения статей? Какие существуют «умные» инструменты, которые могут «учиться» на страницах pdf с аналогичной структурой, где находится содержание статьи? Существуют ли инструменты, такие как какие-то модули Quark Xpress, которые могут «инкапсулировать» или «пометить» статью вместе с помощью невидимого ссылочного тега, чтобы упростить извлечение для скриптов?

Люди, создающие эти PDF-файлы, выполняли свою работу последние 20 лет и не желали менять свой рабочий процесс, за исключением обновлений программного обеспечения. Любой дополнительный инструмент для них не должен мешать их рабочему процессу, иначе они просто откажутся от него.

Мне не нужен код; но просто некоторые описания того, что вы или другие люди, возможно, сделали в отношении других проблем с извлечением PDF. Лучшим ответом будет описание, возможно, нескольких методов или ссылки на внешние ссылки с описаниями случаев.


person Florian Mertens    schedule 12.01.2013    source источник


Ответы (1)


Общий вопрос, но на первый взгляд мой ответ будет таков: если вы позволите им дойти до PDF, вы уже очень усложняете задачу. Если они все еще используют Quark XPress, есть гораздо лучшие способы сделать это, и аналогичные подходы фактически используются довольно многими издателями.

1) Рассмотрите возможность создания как PDF, так и XML из Quark XPress. Это нормально, что они не хотят ничего менять, но им все равно придется создавать PDF из Quark; также создание XML не является действительно большим дополнительным шагом. На самом деле (предупреждение - присоединение!) Есть инструменты, которые могут сделать все это за один шаг. Вы можете написать AppleScript, например, для управления процессом, но что-то вроде axaio MadeToPrint автоматически сгенерирует и (правильный) PDF-файл, и XML-файл после того, как люди нажмут «экспорт».

2) Когда у вас есть PDF и XML с одинаковым содержанием, используйте PDF для печати (как известно), а затем напишите код для преобразования XML во все, что вам нужно на веб-сайте. Если кодирование выполняется на самом веб-сайте, возможно, вам даже не потребуется настраивать XML, исходящий из Quark; просто сделайте сайт достаточно умным, чтобы улавливать все, что необходимо.

Широкий ответ на широкий вопрос; надеюсь, что это то, что вы ищете ...

person David van Driessche    schedule 12.01.2013
comment
В значительной степени направление! На самом деле я не уверен насчет версии Quark Xpress, которую они все еще используют; они действительно олдскульные ребята, и, честно говоря, это маленькая счастливая компания, я (маленький айтишник), чтобы изменить их счастливый привычный образ жизни. Эта функция экспорта XML, о которой вы говорите, с какого года выпуска / версии существует? В то время шла аналогичная дискуссия, но в то время ее не существовало. Кроме того, описание Axaio MadeToPrint, похоже, не упоминает об этом XML файл? - person Florian Mertens; 12.01.2013