支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


OpenAI o3-pro发布,也许当前的RAG过时了...

发布日期:2025-06-16 12:53:00 浏览次数: 1558
作者:叶小钗

微信搜一搜,关注“叶小钗”

推荐语

OpenAI o3-pro震撼发布,推理能力飙升且价格直降80%,RAG技术或将迎来新变革!

核心内容:
1. o3-pro的核心升级:200k上下文窗口与80%降价带来的性价比突破
2. 基础RAG的技术原理与典型应用场景分析
3. 高级RAG框架如何解决基础版检索覆盖不足等关键缺陷

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

前两天,OpenAI 发布 o3-pro,号称最强推理 AI 模型上线,推理能力再创新高。对于推理最强这个信息,很多人都是无所谓的状态,但随后的信息就很嗨了:

伴随o3-pro的推出,OpenAI还做出了一个令人意外的决定,o3的价格下调80%,降至与GPT-4o相当的水平。具体来说:

  1. 调整前:输入token每百万10美元,输出token每百万40美元;
  2. 调整后:输入token每百万约2美元,输出token每百万约8美元;

虽然对比DeepSeek的费用来说还是偏贵,但已经是很有诚意的降价了,一些同学对此可能没什么概念:

10000字的提示词之前要花0.72元,现在只需要0.144元了。

除此之外,o3-pro上下文窗口大小为 200k,最大输出 token 数为 100k,这意味着至少可以输入约15万字的提示词!

大家知道15万字是什么概念吗,一篇短篇小说,各位得看一晚上了!

而无论是更便宜的资费还是更强的上下文,他都利好于Agent架构的记忆问题,大白话来说就是RAG由于更长的提示词上下文,可以玩得更花了!

作为AI应用80%会涉及的技术,今天我们就来简单介绍下RAG的几种玩法。

AI应用很简单,简单到一周就可以出demo;AI应用也很复杂,复杂到一年后效果依旧跟demo差不多,下图就是AI产品调用流程的具象化:

他是一段提示词输入 + LLM处理后的一段输出,但就是这里的输入和输出就学问大了。

一、基础RAG

最简单的检索增强模式,通过简单的文档检索提升模型的应答质量。

最初使用这个模式的时候,多半是为了加入特殊数据(知识),比如大模型关于糖尿病的治疗输出是基于临床指南的,而我们实现了一个医生的数字分身后,就要用该医生的回答,这里的流程是:

基础RAG优势在于快、易落地;短板则是检索策略死板、推理链条单薄。

RAG在工程层面只包含三个关键步骤:向量检索 → 上下文拼接 → 一次性生成。

这套流程足以在短时间内构建可用 Demo,但当场景复杂度提升,缺陷也会迅速暴露。下面按“现象—成因—应对”顺序展开:

问题
典型表现
主要成因
检索覆盖不足
用户同义改写或长句提问时,未命中关键文档
检索策略固定,Top-k 与阈值写死,不做 Query Rewriting
回答缺少链路
需要跨段、跨文件推理时,答案片段不完整
上下文仅拼接局部最近邻,缺知识关联
可观测性差
输出跑偏后,难以定位是检索错还是 Prompt 问题
缺少“检索→拼接→生成”三段日志

就是因为基础RAG这样那样的技术,所以很快就衍生出了高级RAG框架:

二、高级RAG

所谓高级RAG其实也没那么高级,其实就是基于RAG增加了很多工程控制策略。

他就是把“只会在一个抽屉翻文件”的基础 RAG,升级成“先问清需求、跑遍图书馆、再把最有价值的段落按优先级贴到桌面”的智能助手,显著提升召回率 + 精准度 + 可观测性。

这里举个例子:

场景
痛点(基础 RAG)
高级 RAG 怎么破
效果对比
三甲医院内部指南问答

(跨科室 18 万条 SOP + 1.2 万页指南)
医生问“糖尿病患者术前能否继续二甲双胍?”
向量检索只把药品说明书拉进来,漏掉《围术期管理要点》
- 子查询加上“围手术期”“停药时机”
- BM25 召回抓住专业术语
- 交叉编码器把 SOP 段落排在首位
召回率 62%→93%
回答引用 2 段→6 段,高可信引用一次成文
券商研究部多维数据分析

(非结构化研报 + 时间序列 CSV)
“请给出 2024Q1 新能源车销量滑坡背后三大因素”
文本检索没法把销量曲线、月度库存一起召回
- 分路召回:文本向量 + 数值区间筛选
- Query 拆成“销量”“库存”“补贴”三路
- 重排序让含图表的段落优先
报告生成时间 80 s→18 s
含结构化洞察率 0→100%

所以,高级 RAG = 多通道找资料 + 智能排序 + 过程可追踪的检索增强方案,让 AI 回答既更全又更准,还能快速定位哪里出错。

传统 RAG 只用向量 Top-k 检索,常漏掉专业术语或编号;高级 RAG 同时跑向量、关键词、结构化数据等多路召回,再用轻量模型二次排序,把真正相关的段落放到最前。

系统自动记录召回率、覆盖率等指标,如果出问题也可以很快查到是检索缺料还是 Prompt 失误。

总而言之,就是策略层面多了一些,调试方面更友好了。

三、GraphRAG

GraphRAG我们前面已经介绍过了。

如果说基础 RAG 像“在抽屉里翻资料”、高级 RAG 像“跑遍图书馆并打上标签”,那 GraphRAG 就是把所有书的知识点串成一张关系网,查询时直接沿着网状路径跳跃推理。

它把“检索增强”升级到了“关系增强”,让模型真正理解“谁跟谁有关系、为什么”:

维度
高级 RAG
GraphRAG
检索颗粒度
文本块(段/页)
实体 + 关系 + 路径
上下文拼接逻辑
Top-k + 重排序
多跳路径 + 语义子图
典型能力提升
召回率↑、日志↑
多跳推理↑、事实连贯性↑、幻觉↓
代表实现
分路召回 + 交叉编码
KG 构建 & GNN + 三段式推理引擎
适用场景
大文档 QA、报告生成
跨文件因果推理、异构数据综合分析

对比之前的RAG技术,GraphRAG的门槛会高一些,其构建过程就很复杂,比如之前的真实案例,他会有个知识预处理阶段:

# 知识图谱构建示意
kg = {
    "nodes": [
        {"id""案例-XX医疗项目""type""case"},
        {"id""部门墙""type""problem"},
        {"id""Figma-Axure冲突""type""root_cause"},
        {"id""埋雷预警""type""solution""proprietary": True}
    ],
    "edges": [
        {"source""案例-XX医疗项目""target""部门墙""rel""典型案例"},
        {"source""部门墙""target""Figma-Axure冲突""rel""深层原因"},
        {"source""埋雷预警""target""案例-XX医疗项目""rel""验证方案"}
    ]
}
  • 输入:
根据以下知识图谱路径回答问题:
用户问题 -> 部门墙 -> 典型案例 -> XX医疗项目
        ↓
根本原因 -> Figma-Axure冲突
        ↓
解决方案 -> 埋雷预警(专有方案)
  • 输出:
这个问题在《XX医疗项目》中有典型体现:  
1️⃣ **冲突起源**:设计组使用Figma交付原型,开发组坚持Axure格式(识别到工具冲突实体)  
2️⃣ **恶性循环**:沟通不畅导致开发擅自删除「消息已读」功能(关联到结果实体)  
3️⃣ **破局关键**:  
   - 立即实施「需求对齐看板」(关联解决方案)  
   - 启用课程独创的「埋雷预警」机制(优先调用私有方案)  
4️⃣ **效果验证**:二期项目交付周期缩短37%(绑定结果数据)  

四、推理型RAG

如果说 GraphRAG 把资料“织成网”,那推理型 RAG 就是在网里塞进一位能「拆题-找料-论证-拍板」的小型决策官。它将思维链推理与检索动态调度融合,直接面向“复杂思考 + 自主决策”场景。

事实上,我并不认为推理型RAG比知识图谱的策略更高明,但如果基于知识图谱做推理,效果显然会更好,只不过不通过图谱也能CoT

以下是一些对比:

能力维度
具体描述
业务价值
思维链增强
内置 CoT 和分层推理,可在回答中展开 Step-by-Step 逻辑
复杂问答更可解释,方便审核与质控
自反思机制
自动评估中间结论并回溯优化
输出一致性↑,减少“一次性偏题”
多步骤分解推理
将一个复杂任务拆成子步骤、递进求解
支持诊疗、投研等多环节流程
动态检索能力
推理过程中按中间结果实时调整检索策略
降低“查早、查少、查错”三大风险

为方便各位理解,我这里举个案例:

  • 30 岁男性,三天前起发热 38.6 ℃,伴咳嗽、皮疹(躯干散在红斑),近 24 h 出现乏力、关节酸痛。血常规:WBC 12 × 10⁹/L,CRP 48 mg/L。
  • 给出最可能的 5 个诊断并指出下一步检查/用药建议。

这里处理起来就要上推理型RAG了:

步骤1:症状网络构建

先把患者口述的所有信息拆成「症状、体征、检查、指标」等标准标签,再自动计算“两两 / 三元”组合的重要度。

系统只对权重最高的组合打上深度检索标记,并在界面里用节点-边图可视化,医生一眼就能看出真正值得追问与排查的线索,避免让零散信息淹没核心问题。

步骤2:动态取数

策略引擎实时监听高权重组合,比如:

  1. 出现“黄痰+胸痛”时,立即调用感染性疾病索引;
  2. 检测到“呼吸短促”则切换到胸膜并发症知识图谱;

这样做的好处是先问清再查料,按需拉取指南段落、病例摘要和实验室阈值,而不是一次性拉满 Top-k,既省 token 又缩短响应延迟。

检索结果会带上“触发原因 + 来源库”标签,便于后续审计。

步骤3:回溯闭环

系统先基于当前证据自动生成首版诊断列表并打置信度分,再为每条诊断设置关键否定条件(如“若无发热,则需重新评估肺栓塞”)。

一旦反事实验证不通过,回溯控制器就会重开检索-推理流程并写入修正日志,形成可追踪的自纠错闭环

最终输出不仅是一行诊断结论,更包含推理路径、证据引用和下一步检查/用药建议,既合规也方便质量迭代。

五、Agentic RAG

这个东西就没撒好介绍的了,基本也是Manus那套模型即所有的套路,主打模型会自己聪明得查找到所有需要的资料,暂时我没用过,也就不评论了...

结语

过去两年,模型发生了很大的变化,主要体现在两个方面:

  1. 第一,模型的基础能力更强了;
  2. 第二,模型的上下文更长了;

但这在前两年可不是这么回事,主流大模型的上下文窗口只有 4k–8k-16k-32k-64k-... 的不断发展。

最初谁想让模型吸收操作手册或聊天库,唯一的可行办法就是先把文档切成能塞进窗口的小片段,再做向量检索和拼接。

于是各种花式chunk策略应运而生:递归滑窗、层级重叠、语义边界分段,它们不是“炫技”,而是时代的权宜之计。

如今通用模型上下文模型把窗口拉到 128k、200k 甚至更大。结果很直接:能整篇塞进去的文档,就没必要硬切。

这并不是否定旧方法,而是承认边际收益正在递减:你再雕琢分块粒度,带来的增益也抵不过“一次性放进去”带来的信息完整度。

但是,当前模型对长文的理解还不行,插入过长的提示词依旧有个窗口期

所以,新一代的RAG使用,近期可能会发现不小的演进:

  1. 窗口够大就整篇输入,不够再按结构化单元分;把“切不切”当成成本决策,而非技术信仰;
  2. 检索层负责把文本、图像、视频统一变成向量或结构,业务代码不再东拼西凑;
  3. 检索-推理-验证全程留痕;

过去分块是时代产物;未来的看点,是让检索和推理在更丰富、更实时的多模态数据上无缝衔接,把工程精力投到真正能提高业务价值的环节,而不是继续在切割细节上反复雕花。

参考:RAG技术的演进中对RAG的分类方式

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询