OCR — получение текста из изображения с использованием tesseract 3.0 и imagemagick 6.6.5

Я пытаюсь создать сценарий оболочки, который позволяет мне искать текст в изображении. Основываясь на тексте, скрипт сделает все возможное, чтобы получить текст с изображения. Я хотел, чтобы вы внесли свой вклад в это, поскольку этот скрипт, кажется, работает с большинством изображений, но не с теми изображениями, где цвет шрифта текста похож на меньшее окружение вокруг текста.

# !/bin/bash
# 
# imt-ocr.sh is image magick tessearc OCR tool that is used for finding out text in image
#
# Arguments:
# 1     -- image filename (with path)
# 2     -- text to search in image      (default to '')
# 3     -- occurence of text            (default to 1)
# Usage:
# imt-ocr.sh [image_filename] [text_to_search] [occurence]
#

image=$1
txt=$2
occurence=$3    # Default to 1
if [ "$occurence" == "" ]
then
        occurence=1
fi

get_major_color ()
# Returns the major color of an image with its hex value
#       Parameter:      Image filename (with path)
#       Return format:  Returns a string "hex_val_of_color major_color_name"
{
convert $1 -format %c histogram:info: > x.txt
cat x.txt | awk '{print $1}' > x1.txt
h=$(sort -n x1.txt | tail -1);
color_info=$(cat x.txt | grep "$h" | cut -d '#' -f2)
rm -rf x.txt x1.txt
echo "$color_info"
}


invert_color()
# Inverts the color hex value
#       Parameter:      Hex value to be inverted
#       Return format:  Returns in hex
{
input_color_hex=$1                                              # Input color's hex value
white_color_hex=FFFFFF                                          # White color's  hex vlaue
inv_color_hex=`echo $(printf '%06X\n' $((0x$white_color_hex - 0x$input_color_hex)))`
echo $inv_color_hex
}


start_scale=100
end_scale=300
increment_scale=100
tmp_img=dst.tif
attempt=1
for ((scale=$start_scale, attempt=$attempt; scale <= $end_scale ; scale=scale+$increment_scale, attempt++))
        do
                echo "IMT-OCR-LOG: Scaling image to $scale% in attempt #$attempt"
                convert $image -type Grayscale -scale $scale% $tmp_img
                tesseract $tmp_img OUT
                found_oc=$(grep -o "$txt" OUT.txt | wc -l)
                echo "IMT-OCR-LOG: Found $found_oc occurence(s) of text '$txt' in attempt #$attempt"
                if [ $occurence -le $found_oc ] && [ $found_oc -ne 0 ]
                then
                        echo "IMT-OCR-LOG: Printing out the last text found on image"
                        echo "IMT-OCR-LOG: ======================================================"
                        cat OUT.txt
                        echo "IMT-OCR-LOG: ======================================================"
                        rm -rf $tmp_img OUT.txt
                        exit 1
                else
                        echo "IMT-OCR-LOG: Getting major color of image in attempt #$attempt"
                        color_info=`get_major_color $image`
                        true_color=$(echo $color_info | awk '{print $2}')
                        true_val=$(echo $color_info | awk '{print $1}')
                        echo "IMT-OCR-LOG: Major color of image is '$true_color' with hex value of $true_val in attempt #$attempt"

                        # Blur the image
                        echo "IMT-OCR-LOG: Bluring image in attempt #$attempt"
                        convert $tmp_img -blur 1x65535 $tmp_img

                        # Flip the color
                        inverted_val=`invert_color $true_val`
                        echo "IMT-OCR-LOG: Inverting the major color of image from 0x$true_val to 0x$inverted_val in attempt #$attempt"
                        convert $tmp_img -fill \#$inverted_val -opaque \#$true_val $tmp_img

                        # Sharpen the image
                        echo "IMT-OCR-LOG: Sharpening image in attempt #$attempt"
                        convert $tmp_img -sharpen 1x65535 $tmp_img

                        # Find text
                        tesseract $tmp_img OUT
                        found_oc=$(grep -o "$txt" OUT.txt | wc -l)
                        echo "IMT-OCR-LOG: Found $found_oc occurence(s) of text '$txt' in attempt #$attempt"
                        if [ "$found_oc" != "0" ]
                        then
                                if [ $occurence -le $found_oc ]
                                then
                                        echo "IMT-OCR-LOG: Printing out the last text found on image"
                                        echo "IMT-OCR-LOG: ======================================================"
                                        cat OUT.txt
                                        echo "IMT-OCR-LOG: ======================================================"
                                        rm -rf $tmp_img OUT.txt
                                        exit 1
                                fi
                        fi
                fi

                rm -rf OUT.txt

        done

rm -rf $tmp_img

Вот пример с проблемой, изображение (test.jpeg) http://www.igoipad.com/wp-content/uploads/2012/07/03-Word-Collage-iPad.jpeg

[admin@ba-callgen image-magick-tesseract-processing]$ sh imt-ocr.sh test.jpeg Common
IMT-OCR-LOG: Scaling image to 100% in attempt #1
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Common' in attempt #1
IMT-OCR-LOG: Getting major color of image in attempt #1
IMT-OCR-LOG: Major color of image is 'grey96' with hex value of F5F5F5 in attempt #1
IMT-OCR-LOG: Bluring image in attempt #1
IMT-OCR-LOG: Inverting the major color of image from 0xF5F5F5 to 0x0A0A0A in attempt #1
IMT-OCR-LOG: Sharpening image in attempt #1
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Common' in attempt #1
IMT-OCR-LOG: Scaling image to 200% in attempt #2
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 1 occurence(s) of text 'Common' in attempt #2
IMT-OCR-LOG: Printing out the last text found on image
IMT-OCR-LOG: ======================================================
Settings M...
Text
Common words
Exclude numbers
word case
Theme & Layuul
Color theme
Fnnl
Word layout
Clrien lalion
7301
Lrmclsc ape
\u2018OTC
Ergl sw v.-ords >
li( `
I):Jntc1'\:1r\qa )
Landon Spring >
Hough Trad >
H3'fJ|1d :-Ialf >
H L

IMT-OCR-LOG: ======================================================
[admin@ba-callgen image-magick-tesseract-processing]$ 
[admin@ba-callgen image-magick-tesseract-processing]$ 
[admin@ba-callgen image-magick-tesseract-processing]$ 
[admin@ba-callgen image-magick-tesseract-processing]$ 
[admin@ba-callgen image-magick-tesseract-processing]$ 
[admin@ba-callgen image-magick-tesseract-processing]$ 
[admin@ba-callgen image-magick-tesseract-processing]$ sh imt-ocr.sh test.jpeg Portrait
IMT-OCR-LOG: Scaling image to 100% in attempt #1
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Portrait' in attempt #1
IMT-OCR-LOG: Getting major color of image in attempt #1
IMT-OCR-LOG: Major color of image is 'grey96' with hex value of F5F5F5 in attempt #1
IMT-OCR-LOG: Bluring image in attempt #1
IMT-OCR-LOG: Inverting the major color of image from 0xF5F5F5 to 0x0A0A0A in attempt #1
IMT-OCR-LOG: Sharpening image in attempt #1
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Portrait' in attempt #1
IMT-OCR-LOG: Scaling image to 200% in attempt #2
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Portrait' in attempt #2
IMT-OCR-LOG: Getting major color of image in attempt #2
IMT-OCR-LOG: Major color of image is 'grey96' with hex value of F5F5F5 in attempt #2
IMT-OCR-LOG: Bluring image in attempt #2
IMT-OCR-LOG: Inverting the major color of image from 0xF5F5F5 to 0x0A0A0A in attempt #2
IMT-OCR-LOG: Sharpening image in attempt #2
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Portrait' in attempt #2
IMT-OCR-LOG: Scaling image to 300% in attempt #3
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Portrait' in attempt #3
IMT-OCR-LOG: Getting major color of image in attempt #3
IMT-OCR-LOG: Major color of image is 'grey96' with hex value of F5F5F5 in attempt #3
IMT-OCR-LOG: Bluring image in attempt #3
IMT-OCR-LOG: Inverting the major color of image from 0xF5F5F5 to 0x0A0A0A in attempt #3
IMT-OCR-LOG: Sharpening image in attempt #3
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Portrait' in attempt #3
[admin@ba-callgen image-magick-tesseract-processing]$ 

Как видите, я могу найти текст "обычный", но не "портрет". Причина в цвете шрифта портрета. Любая помощь в улучшении этого скрипта...

Я использую Центос 5.


person abarik    schedule 16.08.2012    source источник
comment
Описанная вами проблема не единственная. Некоторые другие слова также не идентифицированы правильно. Я бы сначала попытался сделать это правильно, может быть, это поможет и с поиском «Портрет» ...   -  person Kurt Pfeifle    schedule 16.08.2012
comment
Дружеский совет: вам следует подумать о том, чтобы «принять» и/или «проголосовать» за большее количество ответов, которые вы получили на свои предыдущие вопросы. Это увеличило бы готовность людей приложить усилия, думая о ваших проблемах...   -  person Kurt Pfeifle    schedule 16.08.2012
comment
Кстати, в моей системе (Mac OS X Lion, с tesseract v3.01 и ImageMagick v6.7.8-3 2012-07-30 Q16) мои результаты распознавания лучше, чем те, которые вы указали. Например: я получаю Orientation, а вы получаете Clrien lalion... Какая версия tesseract установлена ​​на вашем Centos 5? Какая версия ImageMagick?   -  person Kurt Pfeifle    schedule 16.08.2012
comment
О, я вижу версии упоминаются в заголовке. Не берите в голову...   -  person Kurt Pfeifle    schedule 16.08.2012
comment
Спасибо, Курт. На самом деле я принимаю и поддерживаю ответы/комментарии... Итак, что касается синтаксического анализа текста, это полностью зависит от того, насколько хорошо отформатировано изображение, чтобы тессеракт мог легко обнаружить текст. В настоящее время основное внимание уделяется только тем местам, где шрифт текста смешивается с основным фоном. Для этого в моей текущей реализации я пытаюсь увеличить, размыть, изменить цвет... Это ключевая логика!! Итак, я подумал об альтернативном решении, которое работает только с теоретической точки зрения. Пожалуйста, прочитайте следующий комментарий...   -  person abarik    schedule 16.08.2012
comment
Альтернативное решение — разделить изображение на блоки цветов. Что я заметил, так это то, что если тессеракту дается только изображение (обрезанное изображение), содержащее портрет, он может легко его обнаружить. Итак, идея состоит в том, чтобы разделить изображение на основе блоков цвета, что-то вроде fmwconcepts.com/ imagemagick/separate/index.php, но я не смог успешно реализовать это решение, потому что разделение изображения на основе цвета непросто... Что вы думаете?   -  person abarik    schedule 16.08.2012
comment
Я понимаю... на мои вопросы трудно ответить, я полагаю... В любом случае, я пытался ответить на все свои вопросы, насколько это было в моих силах...   -  person abarik    schedule 17.08.2012
comment
Какова ваша настоящая цель в этом? Создайте универсальный скрипт OCR, который распознает все, что я ему добавляю, даже разноцветные снимки экрана. ? Точнее: Создайте скрипт OCR, который извлекает тексты из скриншотов iPad, используя типичные для iPad цвета. ??   -  person Kurt Pfeifle    schedule 17.08.2012
comment
Хорошо, настоящая цель состоит в том, чтобы извлечь текст из любого изображения экрана телефона Android (я только что взял пример с ipad, так как это первое, что я увидел в Интернете)! Теперь в телефоне Android есть только ограниченное количество текста, но эти тексты имеют разные цвета, и очень сложно найти эти тексты с цветом шрифта, который соответствует фону! Такие изображения, как technixupdate.com/wp-content/uploads/images/ !! Возможно ли случайно обучить тессеракт... это означает, что в его словаре есть только ограниченный набор слов... просто предложение   -  person abarik    schedule 17.08.2012


Ответы (1)


Не ограничивайте себя искусственно только оценкой одного или двух методов при манипулировании входным изображением. Кажется, сейчас вы используете только -blur и -scale.

Вы также должны рассмотреть возможность использования следующих операций:

  • -contrast
  • -despeckle
  • -edge
  • -negate
  • -normalize
  • -posterize
  • -type grayscale
  • -monochrome
  • -gamma
  • -antialias / +antialias

Input Image: Исходный скриншот

Посмотрите, например, что производит эта команда:

convert 03-Word-Collage-iPad.jpeg             \
    -scale 1000%                              \
    -blur 1x65535 -blur 1x65535 -blur 1x65535 \
    -contrast                                 \
    -normalize                                \
    -despeckle -despeckle                     \
    -type grayscale                           \
    -sharpen 1                                \
    -posterize 3                              \
    -negate                                   \
    -gamma 100                                \
    -compress zip                             \
     a.tif

Output Image: Выходное изображение
(Извините, при загрузке TIFF на этот веб-сайт он автоматически преобразуется в PNG. Таким образом, вы не получите мой TIFF при загрузке изображения, которое вы видите выше, но, тем не менее, вы увидите достаточно близкое изображение моего реального результата.)

Примечание 1. Я тестировал это с этой версией ImageMagick:

convert -version
  Version: ImageMagick 6.7.6-9 2012-05-12 Q16 http://www.imagemagick.org
  Copyright: Copyright (C) 1999-2012 ImageMagick Studio LLC
  Features:     

Примечание 2. Старые и новые версии ImageMagick могут вести себя по-разному, особенно когда речь идет о -posterize!

А это результат OCR Tesseract для a.tif:

tesseract a.tif OUT  &&  cat OUT.txt

Tesseract Open Source OCR Engine v3.01 with Leptonica
   Page 0
   Text
   Common words Remove English words >
   Exclude numbers
   Word case Don't change 1+
   Theme & Layout
   Color theme London Spring >
   Font Rough Trad >
   Word layout Half and Half >
   Orientation
   Landscape
   Q
   u
   -0
   "H
   I

Обновлять:

Я убедился, что самая последняя версия ImageMagick 6.7.9-0 (выпущенная вчера) не дает точно такого же результата, как я показал с помощью приведенной выше команды + снимка экрана (сделанного с версией 6.7.6-9). Вот разница:

введите здесь описание изображения

В любом случае, я уверен, что если вы немного подправите мою команду, играя с различными параметрами, вы заставите ее работать на вас, какой бы ни была ваша версия ImageMagick...

person Kurt Pfeifle    schedule 18.08.2012
comment
Какое влияние оказывают -contrast и -normalize на изображение и способность OCR их читать? Можете ли вы предложить предварительный процесс imageMagic для следующего pdf dl.dropbox.com/u/44235928/ sample_rotate-0.pdf Я пробовал convert -rotate 90 -geometry 10000 -depth 8 -density 800 sample.pdf img_800_10000.tif - person piyush; 10.09.2012
comment
@piyush: Вы должны задать свой отдельный вопрос о -contrast и -normalize. Что касается вашего sample_rotate-0.pdf — разве уже не было отдельного вопроса? Кажется, я видел одну, но больше не могу найти... - person Kurt Pfeifle; 10.09.2012