Служба OCR AWS Texttract не различает верхний индекс/экспоненты

Я работаю с сервисом Texttract AWS.

Значение вроде 10¹⁰ читается как 1010. Это приводит к неправильному чтению данных.
Кроме того, границы данных в ячейке иногда перекрывают границы содержащейся ячейки.

Как решить эти проблемы?

muasif80 03.01.2020 источник

Ответы (1)

arrow_upward
2
arrow_downward

Вы не можете исправить это самостоятельно. Вам придется подать заявку в службу поддержки и надеяться, что они исправят это на своей стороне. AWS продолжает обучать свою модель прогнозирования, чтобы сделать ее лучше. Но поскольку их модель обучена на миллионах различных типов документов, это приведет к ошибкам в идентификации ячеек или элементов формы.

Модель, которая была специально обучена только одному типу формы, будет работать намного лучше для этой формы. Вы должны пожертвовать точностью ради разнообразия.

Ninad Gaikwad 08.01.2020

comment

Это значит, что это не имеет решения? Я не могу настроить обработку в соответствии со своими потребностями? Я очень удивлен, почему они упустили этот аспект, что текст, написанный в надстрочном индексе, должен быть разделен на основе меньшего размера и положения. - muasif80; 09.01.2020

comment

Нет, невозможно изменить возможности обнаружения texttract. Это полностью управляемое решение для искусственного интеллекта. AWS продолжает обучать свои модели с помощью большего количества форм. Вы можете связаться со службой поддержки и запросить функцию. Если есть много других, кто хочет эту функцию, они могут решить обучить ее в Textract в будущем. - Ninad Gaikwad; 09.01.2020

Служба OCR AWS Texttract не различает верхний индекс/экспоненты

Ответы (1)

Вопросы по теме