Быстрый способ определить, содержит ли изображение текст или нет

У меня есть миллионы изображений, и я могу использовать OCR с pytesseract для извлечения текста по происхождению, но обработка всех изображений занимает слишком много времени.

Таким образом, я хотел бы определить, содержит ли изображение просто текст или нет, и если это не так, мне не пришлось бы выполнять на нем распознавание символов. В идеале этот метод должен иметь высокий отзыв.

Я думал о создании SVM или какой-либо модели машинного обучения, чтобы помочь в обнаружении, но я надеялся, что кто-нибудь из новых методов быстро определит, содержит ли объект текст или нет.


person John Rothman    schedule 30.03.2018    source источник
comment
Можете ли вы предоставить образец набора данных?   -  person eugenhu    schedule 30.03.2018
comment
В этом вопросе нет питона.   -  person Peter Wood    schedule 30.03.2018
comment
Кроме того, возможен дубликат   -  person Peter Wood    schedule 30.03.2018
comment
Это почти похоже на повторяющийся вопрос, Питер, но это немного другое.   -  person John Rothman    schedule 30.03.2018


Ответы (1)


К сожалению, невозможно определить, есть ли в изображении текст, без выполнения на нем какого-либо OCR.

Вы можете создать модель машинного обучения, которая справится с этим, однако имейте в виду, что ей все равно нужно будет обрабатывать изображение.

person BradleyRobertR    schedule 30.03.2018