У меня есть миллионы изображений, и я могу использовать OCR с pytesseract для извлечения текста по происхождению, но обработка всех изображений занимает слишком много времени.
Таким образом, я хотел бы определить, содержит ли изображение просто текст или нет, и если это не так, мне не пришлось бы выполнять на нем распознавание символов. В идеале этот метод должен иметь высокий отзыв.
Я думал о создании SVM или какой-либо модели машинного обучения, чтобы помочь в обнаружении, но я надеялся, что кто-нибудь из новых методов быстро определит, содержит ли объект текст или нет.