1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 当你处理分页响应时,你需要先抓取整个 JSON 并将其组合起来。
为了获得完整的 JSON,请查看 Textract Caller (https://github.com/aws-samples/amazon-textract-textractor/tree/master/caller) 和 get_full_json 方法 (<https //github.com/aws-samples/amazon-textract-textractor/blob/4b1e55426fc7fa623afcf210a2e3f5b51edc614c/caller/textractcaller/t_call.py#L256>)。
对于较少数量的页面和作业,它们工作正常,但它们会针对 Textract Get* API 进行轮询。 对于大量页面和多个并发作业,请在 SNS 通知后传入 OutputConfig 和 get_full_json_from_output_config,否则您可能会在 Textract Get* 调用中受到限制。
使用完整的 JSON,order_blocks_by_geo 应该可以正常工作。
对于具有数千页的大型 PDF,内存消耗会很高(根据我的经验,Python 消耗的 RAM 是文件在磁盘上消耗的 RAM 的 5 倍...),因此请确保您有足够的可用 RAM。
相关内容
- AWS 官方已更新 2 年前
- AWS 官方已更新 2 年前
- AWS 官方已更新 2 年前
- AWS 官方已更新 2 年前