Публикации по теме 'aws-textract'
Извлекайте текст и данные из любого документа с помощью Amazon Textract в Node.js
Amazon Textract - это сервис, который автоматически извлекает текст и данные из отсканированных документов. Это выходит за рамки простого оптического распознавания символов (OCR) и позволяет также определять содержимое полей в формах и информацию, хранящуюся в таблицах.
Обычно вам нужно извлекать данные из документов и форм. Благодаря машинному обучению эта услуга может устранить необходимость ручного ввода данных или менее подверженного ошибкам подхода жестко закодированных правил..
AWS Textract: как обнаружить и отсортировать текст в многоколоночном документе
AWS Textract - это инструмент AWS, используемый для извлечения текста из PDF (или изображения). Наилучший сценарий - когда в исходном документе всего одна колонка, как в книге. Когда у вас более одной колонки, например, в газетной статье, с ними работать сложнее. Я хотел бы поделиться своим опытом использования метода сортировки столбцов.
Мой источник - газетная статья с таким макетом:
Вывод Textract - это JSON, образованный различными типами BlockType, расположенными в..