Распознавание текста и различение двух или трех шрифтов

Допустим, у меня есть черно-белое изображение документа, в котором используются только 2 или 3 шрифта. Один из трех используется для заголовка, а другой - мелкий шрифт (или, по крайней мере, очень простой). Например, одним из небольших фрагментов текста может быть:

Fancy/Bolded/Italicized/Script font: The Best Soup In The World
Plain/small: Made with tap water, salt, and sugar.

Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World
Plain/small: Made with flour, tap water, salt, and sugar.

Мне не нужна большая навороченная система распознавания текста, которая может сказать мне, что "Best Soup" использует особый причудливый шрифт с курсивом и т. Д. Мне просто нужна система, которая может сказать мне, что «Best Soup» отформатирован совсем не так, как «водопроводная вода», что «Best Soup» и «Sandwich», вероятно, используют одинаковое форматирование, а «Sandwich» больше / интереснее, чем «tap» вода."

Я буду использовать Tesseract для фактического распознавания текста и определения ограничивающей рамки (http://www.mail-archive.com/[email protected]/msg02157.html), если это необходимо.

Есть ли что-нибудь, что я могу использовать для этой простой классификации форматирования?

Редактировать:

Есть ли что-нибудь, что сделает это, не потратив на это руки и ноги?


person Zian Choy    schedule 30.07.2011    source источник


Ответы (1)


Я не уверен, сможет ли tesseract решить описанную вами задачу, но я считаю, что хороший движок ocr должен определять стили шрифтов. Например, ABBYY OCR SDK может не только определять стиль полужирного / курсивного шрифта, но и определять правильный начертание шрифта для использования в выводе.

Основываясь на том, что вы описываете, я предполагаю, что вы пытаетесь определить иерархию стилей документа, такую ​​как уровни заголовков и т. Д. ABBYY FineReader Engine предоставляет эту функцию, и вам не нужно вмешиваться в процедуру назначения текста на основе размера шрифта и стиля. Кроме того, он обеспечивает наилучшее качество распознавания речи, и его можно попробовать бесплатно. Попробуйте это сделать, если вы планируете коммерческое ПО. Я работаю в @ ABBYY и при необходимости могу предоставить вам дополнительную информацию о нашем OCR SDK.

С наилучшими пожеланиями.

person Nikolay    schedule 03.08.2011
comment
Спасибо за полезный ответ, в то же время тихо продвигая свою компанию. :) На данный момент я не решил, буду ли я заряжать или нет, поэтому я продолжу рассматривать другие возможности. - person Zian Choy; 04.08.2011