распознавание китайских иероглифов с помощью Tesseract OCR

Я использовал Tesseract 3.0.2 OCR SDK для извлечения текста из изображений. Но если я использую китайские текстовые изображения и прохожу через OCR, тогда Tesseract не предоставляет мне китайские иероглифы, вместо этого я получаю числовые и английские символы. Но мне нужны китайские иероглифы, как показано на изображении, которое я использую.

Как я могу этого добиться? Есть ли способ получить китайские иероглифы вместо любых других?

Nishant Tyagi 16.05.2013 источник

Ответы (1)

arrow_upward
19
arrow_downward

Вам необходимо загрузить данные, обученные китайскому языку (это будет файл типа chi_sim.traineddata), и добавить его в папку tessdata.

Чтобы загрузить файл, https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

и использовать как это

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];

если у вас возникнут проблемы, вы можете загрузить мой эксперимент с tessaract (с поддержкой китайского языка) с https://github.com/aryansbtloe/ExperimentWithTesseract.git

Я тестировал это ... Надеюсь, вы найдете это полезным.

Alok Singh 16.05.2013

comment

Алок, я попробовал ваш образец, и он хорошо работает примерно с половиной упрощенных китайских иероглифов, которые я пробовал. В остальном он может либо распознать составной символ как несколько разных символов, каждый из которых представляет компонент в составном символе, либо полностью ошибиться. Вы знаете какой-либо метод повышения точности распознавания? - CodeBrew; 15.06.2014

comment

Новая ссылка на обученные данные: github.com/tesseract-ocr/tessdata/raw / master / - Régis B.; 19.02.2016

comment

загрузите установщик с github.com/UB-Mannheim/tesseract/wiki, чтобы иметь папку tessdata. (в дополнение к pip install pytesseract) - Mark K; 16.05.2020

распознавание китайских иероглифов с помощью Tesseract OCR

Ответы (1)

Вопросы по теме