1개 답변
- 최신
- 최다 투표
- 가장 많은 댓글
0
【以下的回答经过翻译处理】 当你处理分页响应时,你需要先抓取整个 JSON 并将其组合起来。
为了获得完整的 JSON,请查看 Textract Caller (https://github.com/aws-samples/amazon-textract-textractor/tree/master/caller) 和 get_full_json 方法 (<https //github.com/aws-samples/amazon-textract-textractor/blob/4b1e55426fc7fa623afcf210a2e3f5b51edc614c/caller/textractcaller/t_call.py#L256>)。
对于较少数量的页面和作业,它们工作正常,但它们会针对 Textract Get* API 进行轮询。 对于大量页面和多个并发作业,请在 SNS 通知后传入 OutputConfig 和 get_full_json_from_output_config,否则您可能会在 Textract Get* 调用中受到限制。
使用完整的 JSON,order_blocks_by_geo 应该可以正常工作。
对于具有数千页的大型 PDF,内存消耗会很高(根据我的经验,Python 消耗的 RAM 是文件在磁盘上消耗的 RAM 的 5 倍...),因此请确保您有足够的可用 RAM。
관련 콘텐츠
- 질문됨 한 달 전
- AWS 공식업데이트됨 일 년 전
- AWS 공식업데이트됨 9달 전
- AWS 공식업데이트됨 7달 전
- AWS 공식업데이트됨 3년 전