Допустим, у меня есть черно-белое изображение документа, в котором используются только 2 или 3 шрифта. Один из трех используется для заголовка, а другой - мелкий шрифт (или, по крайней мере, очень простой). Например, одним из небольших фрагментов текста может быть:
Fancy/Bolded/Italicized/Script font: The Best Soup In The World
Plain/small: Made with tap water, salt, and sugar.
Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World
Plain/small: Made with flour, tap water, salt, and sugar.
Мне не нужна большая навороченная система распознавания текста, которая может сказать мне, что "Best Soup" использует особый причудливый шрифт с курсивом и т. Д. Мне просто нужна система, которая может сказать мне, что «Best Soup» отформатирован совсем не так, как «водопроводная вода», что «Best Soup» и «Sandwich», вероятно, используют одинаковое форматирование, а «Sandwich» больше / интереснее, чем «tap» вода."
Я буду использовать Tesseract для фактического распознавания текста и определения ограничивающей рамки (http://www.mail-archive.com/[email protected]/msg02157.html), если это необходимо.
Есть ли что-нибудь, что я могу использовать для этой простой классификации форматирования?
Редактировать:
Есть ли что-нибудь, что сделает это, не потратив на это руки и ноги?