Текстовое исключение неподдерживаемого документа

Я пытаюсь использовать boto3 для запуска запроса texttractDetect_document_text.

Я использую следующий код:

client = boto3.client('textract')
response = client.detect_document_text(
             Document={
            'Bytes': image_b64['document_b64']
        }
      )

Где image_b64['document_b64'] — код изображения base64, который я преобразовал, например, с помощью https://base64.guru/converter/encode/image.

Но я получаю следующую ошибку:

UnsupportedDocumentException

Что я делаю неправильно?


person Gabriel Marcondes    schedule 30.06.2020    source источник


Ответы (2)


По документу:

Если вы используете AWS SDK для вызова Amazon Textract, вам может не понадобиться кодировать base64 байты изображения, передаваемые с помощью поля Bytes.

Кодировка Base64 требуется только при прямом вызове REST API. При использовании Python или NodeJS SDK используйте собственные байты (двоичные байты).

person theaws.blog    schedule 09.07.2020

Для дальнейшего использования я решил эту проблему, используя:

client = boto3.client('textract')
image_64_decode = base64.b64decode(image_b64['document_b64']) 
bytes = bytearray(image_64_decode)
response = client.detect_document_text(
    Document={
        'Bytes': bytes
    }
)
person Gabriel Marcondes    schedule 23.08.2020