支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


RAG往后发展的三点感触及语言文化分析的两个工作

发布日期:2025-05-16 13:24:16 浏览次数: 1530 作者:老刘说NLP
推荐语

深入解析RAG技术发展现状与未来趋势,以及语言文化分析的创新工作。

核心内容:
1. RAG技术框架的局限性与未来发展方向
2. GraphRAG的潜力与演化路径
3. 语言文化分析的两个有趣工作:历史数据演变与大模型语言分析

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

今天是2025年5月16日,星期五,北京,晴。

我们说已经过许多关于知识图谱,RAG,文档智能方面的事情,这些都在2024年得到了很好的发展,也涌现出了许多细化的方案,GraphRAG,DeepResearch等层出不穷,Mineru、Mistralocr等文档解析工作也出现了不少,Qwen3也发布了。

但是,目前已经进入到5月份了,仿佛都静了下来?许多github项目都不怎么更新了?模型发布也没那么大波澜了?似乎已经慢慢进入到一个静默时期,疲劳期或者爬坡期?那么,接下来,在RAG方向上,有什么感触,这里说三点。

另外,来看看语言分析上的两个有趣工作,一个是历史数据,可以用来做演变。一个是大模型语言的分析,都很有趣。

抓住根本问题,做根因,专题化,体系化,会有更多深度思考。大家一起加油。

一、关于RAG的三点感受

1、“一周出demo,半年用不好”这句话不管技术如何发展,总会成立

因为RAG是一个框架,而不是根治解决方案,目前问题的根本解还是在特定业务场景,特定业务问题,依旧需要特事特办,Case by case,这个规律不会变。从技术方案层看,已经出现了许多的变体,无论是从query改写、拆解或者Hyde方案,还是向量化中的各类Embedding,还是召回侧的hybrid混合检索,还是各种rank,rerank模排序去噪,还是prompt组装侧的各类组合策略,还是生成结果侧的引文生成,自我修正,还是把这些流程外面套一个while循环,变成AgenticRAG式的DeepResearch,还是切换成使用colqwen式的多多模态RAG,这些方案都已经有很多了。从开源框架上看,已经有了coze,dify这类低代码拖拽式快速搭建方案,也有RAGflow,langchain,lammaindex,cheerystdio等多个RAG框架库,这些其实都极大的满足了半天就能出RAG的需求。从后面看,这些框架同质化严重,要想做出差异化其实并不容易,所以很多就是做多模态数据接进来,把实时接进来,或者把前期的文档智能做起来,做深度的Deepdoc这些。

因此,基于这样一种观察和现实,RAG的重要性其实在变小,性价比并不高,解决的也并不是太刚需,而更多的演化方向,已经退化为一个小组件,放入到Agent这个大系统里,目前正是朝着这个方向在演化

2、RAG中的GraphRAG,能继续演化的点不多了

GraphRAG之所以能够在过去有很多idea出来,根本逻辑在于是基本特性。Graph或者叫KG也行,一个是具备结构化属性,通过结构化信息提取,提取关键词,实体,关系这些,收到了一种信息精炼、去噪的作用,并提供信息组织和关联的锚点作用;一个是这种Graph结构的相关性,上面可以提供相关性的连接工作,可以方便后续去做多跳,广度或者深度游走,可以解决召回的全面性问题,比如MS的解决local search,提升某个实体答案的全面性,并且也可以运用社区发现等算法做层层摘要,从而解决文档总结的问题。一个是在这个图结构上可以运行的量化算法。pagerank,中心度算法,shortest path,node2vec等图算法,给数据量化角度提供一些思路。从结构化上看,可以做的点,其实是添加节点类型,比如引入多模态,把图像,文本,视频,段落,层级等更多模态的信息进行链接,或者怎么设计更合适的节点,从而为多模态RAG做准备,也就是变成多模态GraphRAG;从Graph结构相关性上,可以做的点,包括怎么对路径进行剪枝,如何找到对问题本身有因果关联的path,更精准地去噪,更精简上下文,这块其实难度不小。从Graph的量化信息方面,如果再走,可能就会走GNN图神经网络那套,但这个在数据建模上难度会大一些。当然,在RAG上可能会是这样,但是依旧可以切热点趋势去做,比如现在出现的,与Agent的memory结合,基于Graph做记忆的管理,增强智能体的个性化体验,这个用Graph去做会很合适,例如mem0^g和Graphti就是这类方案;又如可以与R1,思维链等做结合,使用GraphRAG去做可解释推理数据的合成等,例如MedReason就是其中的一类工作。只要热点不短,只要去研究,总能找到能贴合的点。

3、RAG中的文档解析值得做但无需重投入

模型应用,尤其是RAG这一波,文档解析的需求和受重视程度被快速提升,这也是我过去一年重点做的工作,这里的支撑逻辑在于,RAG中涉及到要素的召回,而文档解析的效果会直接影响文档切分以及问答效果。例如面对不可编辑的ppt或者pdf,如果使用传统的pdfminer,pypdf等工具,会破坏其中的表格,图片等信息,造成文本信息错乱。所以这就直接促成了一个看似较为完备的文档解析需求,包括涵盖住不同领域,不同尺寸的文档版式东西,将页面中的表格,图片,页眉页脚,段落,标题,表格标题,图片标题,公式等区域进行检测;表格解析,将有线的,无线的,缺线的,研报表格,金融长表等转成html或者latex表示,用于后期做tableQA;又如后续的公式解析,段落标题OCR,阅读顺序;又如前期的文档去水印,去印章等处理;又如手写体识别等;也包括多栏阅读顺序等,这些其实都是之前做OCR那套的常规任务,已经发展多年了,并不是一个新兴领域。但是,实际上,虽然文档解析对RAG很重要,但也没那那么重要,以现有的能力上来说,大模型还只是对段落标题这类要素有较好的效果,对于公式,表格,图表,图片这些消化能力并不是很好,而这个又占据了主要的研发时间,并且大模型对于一些偶发的段落存款,文本错乱问题,其实都有一个较好的容错性。基于这样一种假设,文档解析做深,做复杂其实并不那么路由性价比。是重点还是把文字部分做好即可,做好版式分析,把对应元素区域做隔离区分,已经能够涵盖住大部分的场景需求,至于表格解析,公式解析这些,其实性价比也没有那么高。

目前文档方向,大家也把文档层级结构这些看的很重,希望做到完美的markdown恢复,这个其实并不是刚需,是另一个文本恢复的领域,主要用途在文档格式转换,文档复原,比如pdf2docx,pdf2ppt,这种场景下就需要尽可能地把文档进行高保真的,不遗漏、每个要素都力求准确的做,这个自然是要做的。但注意,这个跟RAG无关,也跟LLM没有太多关系。当然,这个做好了,RAG会更好,这个逻辑是对的,但是要看投入产出比,是否划得来。

所以,RAG继续往后走,其实是有些需要总结的,有些是可以预判的,这都是我们可以做深入讨论的点。

二、关于语言的几个有趣的点

我们继续看看几个有意思的点。

一个是数据集方面,历史报纸语料,美国新闻报纸数据库,时间涵盖1780-1960,Melissa Dell及合作者使用美国公共图书馆接近2000万份的报纸扫描件,共11.4亿篇文本数据,https://huggingface.co/datasets/dell-research-harvard/AmericanStories,这个跟我们之前的人民日报历史数据可以一同收集,做历史研究是有意义的。也可以接入到大模型当中,让大模型做一些分析,得到一些观点和演变趋势,都很有意义。

另一个是对于大模型而言,其已经成了大面积内容的生产工具,在这种前提下,如果将不同的大模型当做一个个不同的创作者,是内容上呈现出什么样的特点,研究下还是有意义的。所以可以看看这个工作《A Comprehensive Analysis of Large Language Model Outputs: Similarity, Diversity, and Bias ,https://arxiv.org/pdf/2505.09056,对12个主流LLM产生的300万份文本进行分析,揭示了这些模型在输出的内部相似性(普遍高于人类)、跨模型风格差异、多样性及潜在偏见(如GPT-4独特的词汇风格但在深层语义上与GPT-3.5相似,以及Gemma-7B和Gemini-pro在偏见上相对均衡)等方面的特点,都挺有趣的。

关于我们

老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。

加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询