2026 年 6 月 12 日,AWS 在机器学习博客发布一套基于 Amazon Bedrock 的智能文档处理方案,主题是把 PDF、扫描件、图表和表格从“人工录入”推进到“可编排的生成式 AI 流水线”。
这次方案的核心变化
传统文档处理通常先做 OCR,再靠规则或人工校验抽取字段。AWS 这篇方案把重点放在更完整的流水线上:Amazon Bedrock Data Automation 负责文档分类、拆分、提取、归一化和校验;Amazon Bedrock Knowledge Bases 用于跨文档语义检索;Strands Agent 托管在 Amazon Bedrock AgentCore Runtime 中,协调不同任务代理完成分析。
这意味着企业处理的不再只是“识别文字”,而是尝试理解文档上下文、图表关系和多份资料之间的关联。对金融、保险、医疗、公共服务这类文档密集行业,价值点在于减少重复录入、加快审核,并保留可追踪的处理步骤。
为什么值得关注
AWS 提到,Bedrock Data Automation 支持多模态内容,包括文档、图片、视频和音频,并能提供置信度分数。这对企业很关键,因为自动化抽取不是只要结果,还要知道哪些字段需要人工复核。
方案还把处理流程拆成输入处理、提取与存储、智能分析和 Agent 协调四层。这个结构适合已有 AWS 基础设施的团队参考:先从 S3 文档上传和 Step Functions 编排开始,再逐步接入知识库、向量检索和代理协作。
落地边界也很明确
这类方案并不等于企业可以取消人工审核。合同、票据、理赔、病历等场景一旦涉及金额、合规或责任归属,低置信度字段、异常图表和关键结论仍然需要人复核。
更可行的路线是先选择格式稳定、风险较低的文档类型做试点,例如内部报表、供应商资料或非关键票据,再逐步扩大到高价值流程。真正的提速来自“抽取、检索、复核、追踪”连成闭环,而不是单独换一个 OCR 工具。
官方参考:AWS 机器学习博客