我要投稿

Rag不行？谷歌DeepMind同款，文档阅读新助手：ReadAgent

发布日期：2025-10-30 07:33:54 浏览次数： 2281

作者：Kevin的AI厨房

微信搜一搜，关注“Kevin的AI厨房”

最近我们已经全落地了一个AI用例生成的Agent，在这个项目中，有两个难点：

其一，就是不同团队和组织的需求输入格式不一致，有使用研发平台进行需求管理，有使用飞书、word、ppt、markdown等等各种类型，长度复杂度不一致，小需求或清晰功能点还好，但是一设计到复杂功能设计文档或者长需求文档就存在上下文问题、重点信息丢失问题。

其二，如何提高个人私有经验和知识对生成质量的作用？

之前尝试过各种Rag、rerank、Graph等知识库，但是效果不尽人意，主要问题在于文本截断、块的上下文理解不足、全局性差的问题，直到看到Google这篇文章，才给了我新的启发。

ReadAgent是一种全新设计的阅读类agent，可以完成长上下文文章的理解和信息检索，且可以在一定程度长保证对文章的总体理解，就和人一样进行阅读。

人在阅读的过程中，总时习惯读一段内容后进行思考和总结，并总使希望将这段内容和原先读的内容进行关联性思考，这是人的逻辑使然。ReadAgent模仿这一点，进行了设计：

1. 逐步阅读，通过LLM对文章进行自然分段

2. 将分段进行摘要总结

3. ReadAgent在执行任务时，根据提示寻找对应的分段进行理解输出。

设计思路

文档分页

可以使用LLM最大的上下文限制作为输入，创建Prompt让LLM按照语义对文档进行分页，保证每个分页都可以涵盖一个语言逻辑块，比如对话结束，描述转折等，当然也可以人为进行分页

创建摘要建立关系

将每一个分页传给LLM，并给LLM进行提示，让它创建一个精简摘要，并将这个摘要和原始文本进行对应存储，但这里存在一个问题是，如果分页内容很长，则会出现，精简后丢失细节信息，所以这里需要自己把握分段内容和长短

检索查找

通过上面两个步骤已经建立了知识库，接下来介绍两种不同的查找逻辑，一种是并行查找P查找，一种是顺序查找S查找，原理是将摘要给LLM，让LLM进行判断，要看哪些分页，然后将分页内容作为从知识库中检索到的内容给Action agent进行任务执行。

P查找的Prompt：

S查找的Prompt

实践

开发一个文档知识库创建的Agent

以Word为例，按照Word的标题级别，对文档进行分页，这里需要对Word内容进行解析：

from docx import Documentfrom docx.oxml.ns import qndoc = Document(docx_path)for element in doc.element.body:     # 处理标题、文本、图片...

最终将得到两个文件：一个是摘要文件，一个是原始分页文件：

文档中的图片可以使用多模态模型例如qwen3-vl进行文本转化。

开发一个检索Agent

这个可以使用n8n或dify来做，也可以使用代码，为了快速实现，我这里使用了dify：

总体测试下来，七八千字含图的长需求文档读取和查阅还是比较准确的，且有上下文的信息。

同理PPT也可以采用同样的思路，当前我的处理逻辑是使用pptx库，将每页文本提取出来。

from pptx import Presentation
for slide_number, slide in enumerate(prs.slides, 1):   slide_content = {     'number': slide_number,     'title': '',     'notes': ''    }

然后将每一页作为一个分页，其中的图片仍然使用多模态模型进行文本转化。

不过这种方式处理PPT有一个问题，就是无法将ppt中的文本信息格式化输出，如有一些结构话的表达，比如流程图、标题级别、列表等，会丢失这部分信息。

所以接下来，我会将每一页ppt输出为图片，给多模态模型进行理解，然后输出一个markdown类型的文本，这样就保留了文本的层次信息。

总结

使用ReadAgent可以很好的处理文本类的文档和长篇文章，同样也可以结合多模态模型进行图片处理。这种思路和人类看一篇文章的思路一致，既可以进行精确的文本检索，也可以保留概括信息，也能理解不同分段之间的思路逻辑。

END

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-17

更可靠的主播助理：淘宝主播Agent的Harness工程实战

2026-06-16

Business Insider：揭秘 Cursor 的疯狂崛起

2026-06-15

如何搭建一个端到端业务需求专家 Agent

2026-06-12

谁是 Agent 最强守门员？首个 Agent 技能安全评测基准 SkillTrustBench 正式发布

2026-06-12

Agent skill 迭代式编写实战

2026-06-12

GPT-5.5和Opus 4.8都搞不定的Bug，被Fable 5一晚上解决

2026-06-12

Codex 大降价要来了，这份官方指南手把手教你高效榨干额度

2026-06-11

GPT-5.6首批实测来了！精准狙击Mythos

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

真实测评MiniMax M2.7，不吹不夸，它到底什么水平？

2026-03-20

GPT-6，曝光了

2026-04-05

大家都在问

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Anthropic万字长文：当AI开始构建自己，人类该何去何从？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？

2026-06-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw