распознавание китайских иероглифов с помощью Tesseract OCR

Я использовал Tesseract 3.0.2 OCR SDK для извлечения текста из изображений. Но если я использую китайские текстовые изображения и прохожу через OCR, тогда Tesseract не предоставляет мне китайские иероглифы, вместо этого я получаю числовые и английские символы. Но мне нужны китайские иероглифы, как показано на изображении, которое я использую.

Как я могу этого добиться? Есть ли способ получить китайские иероглифы вместо любых других?


person Nishant Tyagi    schedule 16.05.2013    source источник


Ответы (1)


Вам необходимо загрузить данные, обученные китайскому языку (это будет файл типа chi_sim.traineddata), и добавить его в папку tessdata.

Чтобы загрузить файл, https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

и использовать как это

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];

если у вас возникнут проблемы, вы можете загрузить мой эксперимент с tessaract (с поддержкой китайского языка) с https://github.com/aryansbtloe/ExperimentWithTesseract.git

Я тестировал это ... Надеюсь, вы найдете это полезным.

person Alok Singh    schedule 16.05.2013
comment
Алок, я попробовал ваш образец, и он хорошо работает примерно с половиной упрощенных китайских иероглифов, которые я пробовал. В остальном он может либо распознать составной символ как несколько разных символов, каждый из которых представляет компонент в составном символе, либо полностью ошибиться. Вы знаете какой-либо метод повышения точности распознавания? - person CodeBrew; 15.06.2014
comment
Новая ссылка на обученные данные: github.com/tesseract-ocr/tessdata/raw / master / - person Régis B.; 19.02.2016
comment
загрузите установщик с github.com/UB-Mannheim/tesseract/wiki, чтобы иметь папку tessdata. (в дополнение к pip install pytesseract) - person Mark K; 16.05.2020