我要投稿

RAG往后发展的三点感触及语言文化分析的两个工作

发布日期：2025-05-16 13:24:16 浏览次数： 1745

作者：老刘说NLP

微信搜一搜，关注“老刘说NLP”

今天是2025年5月16日，星期五，北京，晴。

我们说已经过许多关于知识图谱，RAG，文档智能方面的事情，这些都在2024年得到了很好的发展，也涌现出了许多细化的方案，GraphRAG，DeepResearch等层出不穷，Mineru、Mistralocr等文档解析工作也出现了不少，Qwen3也发布了。

但是，目前已经进入到5月份了，仿佛都静了下来？许多github项目都不怎么更新了？模型发布也没那么大波澜了？似乎已经慢慢进入到一个静默时期，疲劳期或者爬坡期？那么，接下来，在RAG方向上，有什么感触，这里说三点。

另外，来看看语言分析上的两个有趣工作，一个是历史数据，可以用来做演变。一个是大模型语言的分析，都很有趣。

抓住根本问题，做根因，专题化，体系化，会有更多深度思考。大家一起加油。

一、关于RAG的三点感受

1、“一周出demo，半年用不好”这句话不管技术如何发展，总会成立

因为RAG是一个框架，而不是根治解决方案，目前问题的根本解还是在特定业务场景，特定业务问题，依旧需要特事特办，Case by case，这个规律不会变。从技术方案层看，已经出现了许多的变体，无论是从query改写、拆解或者Hyde方案，还是向量化中的各类Embedding，还是召回侧的hybrid混合检索，还是各种rank，rerank模排序去噪，还是prompt组装侧的各类组合策略，还是生成结果侧的引文生成，自我修正，还是把这些流程外面套一个while循环，变成AgenticRAG式的DeepResearch，还是切换成使用colqwen式的多多模态RAG，这些方案都已经有很多了。从开源框架上看，已经有了coze，dify这类低代码拖拽式快速搭建方案，也有RAGflow，langchain，lammaindex，cheerystdio等多个RAG框架库，这些其实都极大的满足了半天就能出RAG的需求。从后面看，这些框架同质化严重，要想做出差异化其实并不容易，所以很多就是做多模态数据接进来，把实时接进来，或者把前期的文档智能做起来，做深度的Deepdoc这些。

因此，基于这样一种观察和现实，RAG的重要性其实在变小，性价比并不高，解决的也并不是太刚需，而更多的演化方向，已经退化为一个小组件，放入到Agent这个大系统里，目前正是朝着这个方向在演化。

2、RAG中的GraphRAG，能继续演化的点不多了

GraphRAG之所以能够在过去有很多idea出来，根本逻辑在于是基本特性。Graph或者叫KG也行，一个是具备结构化属性，通过结构化信息提取，提取关键词，实体，关系这些，收到了一种信息精炼、去噪的作用，并提供信息组织和关联的锚点作用；一个是这种Graph结构的相关性，上面可以提供相关性的连接工作，可以方便后续去做多跳，广度或者深度游走，可以解决召回的全面性问题，比如MS的解决local search，提升某个实体答案的全面性，并且也可以运用社区发现等算法做层层摘要，从而解决文档总结的问题。一个是在这个图结构上可以运行的量化算法。pagerank，中心度算法，shortest path，node2vec等图算法，给数据量化角度提供一些思路。从结构化上看，可以做的点，其实是添加节点类型，比如引入多模态，把图像，文本，视频，段落，层级等更多模态的信息进行链接，或者怎么设计更合适的节点，从而为多模态RAG做准备，也就是变成多模态GraphRAG；从Graph结构相关性上，可以做的点，包括怎么对路径进行剪枝，如何找到对问题本身有因果关联的path，更精准地去噪，更精简上下文，这块其实难度不小。从Graph的量化信息方面，如果再走，可能就会走GNN图神经网络那套，但这个在数据建模上难度会大一些。当然，在RAG上可能会是这样，但是依旧可以切热点趋势去做，比如现在出现的，与Agent的memory结合，基于Graph做记忆的管理，增强智能体的个性化体验，这个用Graph去做会很合适，例如mem0^g和Graphti就是这类方案；又如可以与R1，思维链等做结合，使用GraphRAG去做可解释推理数据的合成等，例如MedReason就是其中的一类工作。只要热点不短，只要去研究，总能找到能贴合的点。

3、RAG中的文档解析值得做但无需重投入

大模型应用，尤其是RAG这一波，文档解析的需求和受重视程度被快速提升，这也是我过去一年重点做的工作，这里的支撑逻辑在于，RAG中涉及到要素的召回，而文档解析的效果会直接影响文档切分以及问答效果。例如面对不可编辑的ppt或者pdf，如果使用传统的pdfminer，pypdf等工具，会破坏其中的表格，图片等信息，造成文本信息错乱。所以这就直接促成了一个看似较为完备的文档解析需求，包括涵盖住不同领域，不同尺寸的文档版式东西，将页面中的表格，图片，页眉页脚，段落，标题，表格标题，图片标题，公式等区域进行检测；表格解析，将有线的，无线的，缺线的，研报表格，金融长表等转成html或者latex表示，用于后期做tableQA；又如后续的公式解析，段落标题OCR，阅读顺序；又如前期的文档去水印，去印章等处理；又如手写体识别等；也包括多栏阅读顺序等，这些其实都是之前做OCR那套的常规任务，已经发展多年了，并不是一个新兴领域。但是，实际上，虽然文档解析对RAG很重要，但也没那那么重要，以现有的能力上来说，大模型还只是对段落标题这类要素有较好的效果，对于公式，表格，图表，图片这些消化能力并不是很好，而这个又占据了主要的研发时间，并且大模型对于一些偶发的段落存款，文本错乱问题，其实都有一个较好的容错性。基于这样一种假设，文档解析做深，做复杂其实并不那么路由性价比。是重点还是把文字部分做好即可，做好版式分析，把对应元素区域做隔离区分，已经能够涵盖住大部分的场景需求，至于表格解析，公式解析这些，其实性价比也没有那么高。

目前文档方向，大家也把文档层级结构这些看的很重，希望做到完美的markdown恢复，这个其实并不是刚需，是另一个文本恢复的领域，主要用途在文档格式转换，文档复原，比如pdf2docx，pdf2ppt，这种场景下就需要尽可能地把文档进行高保真的，不遗漏、每个要素都力求准确的做，这个自然是要做的。但注意，这个跟RAG无关，也跟LLM没有太多关系。当然，这个做好了，RAG会更好，这个逻辑是对的，但是要看投入产出比，是否划得来。

所以，RAG继续往后走，其实是有些需要总结的，有些是可以预判的，这都是我们可以做深入讨论的点。

二、关于语言的几个有趣的点

我们继续看看几个有意思的点。

一个是数据集方面，历史报纸语料，美国新闻报纸数据库，时间涵盖1780-1960，Melissa Dell及合作者使用美国公共图书馆接近2000万份的报纸扫描件，共11.4亿篇文本数据，https://huggingface.co/datasets/dell-research-harvard/AmericanStories，这个跟我们之前的人民日报历史数据可以一同收集，做历史研究是有意义的。也可以接入到大模型当中，让大模型做一些分析，得到一些观点和演变趋势，都很有意义。

另一个是对于大模型而言，其已经成了大面积内容的生产工具，在这种前提下，如果将不同的大模型当做一个个不同的创作者，是内容上呈现出什么样的特点，研究下还是有意义的。所以可以看看这个工作《A Comprehensive Analysis of Large Language Model Outputs: Similarity, Diversity, and Bias ，https://arxiv.org/pdf/2505.09056，对12个主流LLM产生的300万份文本进行分析，揭示了这些模型在输出的内部相似性（普遍高于人类）、跨模型风格差异、多样性及潜在偏见（如GPT-4独特的词汇风格但在深层语义上与GPT-3.5相似，以及Gemma-7B和Gemini-pro在偏见上相对均衡）等方面的特点，都挺有趣的