使用包含特殊符号的文档文件名进行文本检测时报错。

0

【以下的问题经过翻译处理】 你好, 我正在尝试使用textract从存储在S3存储桶中的pdf中提取文本。

response = textract.start_document_text_detection(
DocumentLocation={
    'S3Object': {
        'Bucket': '样本存储桶',
        'Name': '扫描_pdf_#1.pdf'
    }
},
JobTag = '扫描_pdf_#1.pdf_job',
NotificationChannel={
    'RoleArn': 'arn:aws:iam::*******:role/AWSSNSFullAccessRole',
    'SNSTopicArn': 'arn:aws:sns:us-east-1:*********:PDF_TextProcess_Completed'
})

这里,当文件名包含特殊符号时,会出现以下错误

InvalidParameterException: An error occurred (InvalidParameterException) when calling the StartDocumentTextDetection operation: Request has invalid parameters

我该如何在不更改文件名称的情况下解决这个问题?

我也尝试过以下方法,但它没有起作用 ‘’‘ file = urllib.parse.unquote_plus(file, encoding='utf-8') ’‘’

profile picture
エキスパート
質問済み 9ヶ月前33ビュー
1回答
0

【以下的回答经过翻译处理】 你好,感谢使用Amazon Textract。根据文档https://docs.aws.amazon.com/textract/latest/dg/API_StartDocumentTextDetection.html,参数JobTag只允许以下字符: 类型:字符串 长度限制:最小长度为1,最大长度为64。 模式:[[a-zA-Z0-9_.-:]+]

请提供有效的JobTag值并重试请求。

profile picture
エキスパート
回答済み 9ヶ月前

ログインしていません。 ログイン 回答を投稿する。

優れた回答とは、質問に明確に答え、建設的なフィードバックを提供し、質問者の専門分野におけるスキルの向上を促すものです。

質問に答えるためのガイドライン

関連するコンテンツ