像传统OCR软件一样使用Textract识别长文本的扫描页面,同时重新训练格式?

0

【以下的问题经过翻译处理】 我完全是第一次接触Textract,在深入学习API之前,我想问一下它是否可以用于识别扫描书籍或学术文章等页面,并重新调整字符和段落格式,并输出RTF或.DOC文本文件?非常感谢!

profile picture
专家
已提问 1 年前50 查看次数
1 回答
0

【以下的回答经过翻译处理】 通过格式化,我假定您指的是字体大小和样式(例如加粗,斜体)?目前,Textract无法提取此类格式化信息。

DetectText API目前提供以下信息(sourcehttps://docs.aws.amazon.com/textract/latest/dg/how-it-works-detecting.html):

  • 检测到的文本行和单词
  • 检测到的文本行和单词之间的关系
  • 检测到的文本所出现的页码
  • 文档页面上文本行和单词的位置

它还可以通过查询提取表格、表单和特定信息。此页面https://docs.aws.amazon.com/textract/latest/dg/how-it-works-document-layout.html提供了相应的概述。

profile picture
专家
已回答 1 年前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则