Мы используем php, pypdfocr и pdftotext для распознавания текста и извлечения текста из документов, которые были отсканированы или отправлены нам по факсу. Проблема заключается в том, что документ сканируется или отправляется по факсу в перевернутом виде, или если некоторые страницы предназначены для чтения в альбомной ориентации (поэтому текст на странице повернут на 90 градусов).
Что я пробовал:
- в tessdata cp eng.traineddata osd.traineddata
Результирующий текстовый слой OCR для страниц с текстом под углом 90 градусов неплох, однако страницы, которые перевернуты, распознают каждое слово и переворачивают его на место, так что если в документе появляется «Это тест», но перевернутый, то текстовый слой может читаться как «проверить это»
Если есть способ определить, что страница перевернута, я могу использовать pdftk для поворота страниц, прежде чем запускать их через OCR (или я могу удалить текстовый слой, если он был OCR, и снова запустить его через OCR после используя pdftk для поворота)
Любое решение, которое может быть выполнено из CLI Linux на данный момент, является жизнеспособным решением.