Служба OCR AWS Texttract не различает верхний индекс/экспоненты

Я работаю с сервисом Texttract AWS.

  1. Значение вроде 1010 читается как 1010. Это приводит к неправильному чтению данных.
  2. Кроме того, границы данных в ячейке иногда перекрывают границы содержащейся ячейки.

Как решить эти проблемы?


person muasif80    schedule 03.01.2020    source источник


Ответы (1)


Вы не можете исправить это самостоятельно. Вам придется подать заявку в службу поддержки и надеяться, что они исправят это на своей стороне. AWS продолжает обучать свою модель прогнозирования, чтобы сделать ее лучше. Но поскольку их модель обучена на миллионах различных типов документов, это приведет к ошибкам в идентификации ячеек или элементов формы.

Модель, которая была специально обучена только одному типу формы, будет работать намного лучше для этой формы. Вы должны пожертвовать точностью ради разнообразия.

person Ninad Gaikwad    schedule 08.01.2020
comment
Это значит, что это не имеет решения? Я не могу настроить обработку в соответствии со своими потребностями? Я очень удивлен, почему они упустили этот аспект, что текст, написанный в надстрочном индексе, должен быть разделен на основе меньшего размера и положения. - person muasif80; 09.01.2020
comment
Нет, невозможно изменить возможности обнаружения texttract. Это полностью управляемое решение для искусственного интеллекта. AWS продолжает обучать свои модели с помощью большего количества форм. Вы можете связаться со службой поддержки и запросить функцию. Если есть много других, кто хочет эту функцию, они могут решить обучить ее в Textract в будущем. - person Ninad Gaikwad; 09.01.2020