免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


为什么我不再折腾RAG了

发布日期:2025-09-22 21:46:57 浏览次数: 1538
作者:newtype AI

微信搜一搜,关注“newtype AI”

推荐语

从RAG技术专家到放弃的心路历程,揭秘GraphRAG为何难以普及。

核心内容:
1. 传统RAG技术的局限性分析
2. GraphRAG的优势与普及困境
3. 从"能用"到"好用"的调试难题

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家



我已经很久很久没折腾RAG了。


其实我的账号最初就是靠RAG、个人知识库的内容收获了第一批流量、第一批社群成员。但是后来我逐渐不再关注这个技术和相关产品。两个原因。


第一,技术局限性。


一年前,当我看倒GraphRAG的时候,眼前一亮,因为它解决了传统RAG的严重不足。


传统RAG的基础是分块。这会切断知识之间的内在联系,造成上下文孤立。举个例子,有三个分块。A提到了张三,B提到了李四,C提到了张三和李四是同事。传统RAG必须检索到C才能知道张三和李四的关系。


你可以试一下,把一部小说用传统RAG进行处理,然后问一些人物方面的问题,你就会很明显地发现这种技术上的局限性。


所以,我的知识库都是单条笔记,并且在创建笔记和编辑笔记的时候,尽量做到一个段落就表达一个意思,不要有太多的上下文关联、交叉。这都是为了规避传统RAG的局限。


而GraphRAG不一样。它通过知识图谱,能够把实体和关系连接起来,理论上可以完美解决传统RAG的问题。但是我等了一年,GranphRAG也没能普及。我判断大概有这三个原因。


一是成本太高。


把非结构化的文本转化为高质量的知识图谱,本身就是一个复杂的NLP任务,它涉及到实体识别、关系抽取等。这个过程计算成本很高,而且准确率不太稳定,还需要大量的人工校验。


相比之下,传统RAG把文档切块,然后生成向量,就便宜得多。


二是技术栈太复杂,实施难度高。


GraphRAG这套东西的实施,对开发团队要求太高了。传统RAG相对比较容易。


三是需求不足。


大部分的企业和个人知识库场景,都是简单的问答、文档查询。这种需求大概占了80%,用传统RAG就搞定了。这种情况下如果还要投入去搞GraphRAG,就有点不划算了。


于是,对我来说,RAG似乎就停在了一年多以前的那个位置。今天那些技术,在我早期还在写脚本、手搓RAG的阶段都用过了,比如Hybrid Search、Re-ranking、Multi-Query,都是在给这个技术打补丁。就那样了。


第二,能用容易,好用难。


今天,无论是企业还是个人,想搭建一套能用的RAG系统,门槛其实很低了。


如果有动手能力的话,开源的框架很成熟了,比如LangChain和LlamaIndex,它们已经把RAG的各个步骤都封装成了标准化的模块。你只需要像搭积木一样调用几个函数,一个基础版的RAG原型就能跑起来。


如果不想折腾,也有很多现成的工具可以使用。


但是,这只是能用的程度。如果是要把这套系统调试到好用级别的话,还有很多工作要做,有很多难关要过。


比如,你的文档应该如何切块?用多大的尺寸?要不要保留重叠?用什么嵌入模型?这些都会严重影响检索结果。而且,它们没有标准答案,需要大量实验。


说实话,调到后边,你甚至会感觉有点玄学了。


另外,要有更好的效果,肯定要用上那些高级技术,比如刚才提到的Hybrid Search等等。这就要求你对整个系统有更深的理解,绝对不是调用几个API那么简单。


最后,系统搭建好之后,你该怎么评估呢?以及各种调试之后,到底是变好还是变差?这些都涉及到评估标准的建立,这个也是一件非常头大的事情。


当我深入了解RAG之后,我有一种很强的无力感。如果真要达到我自己满意的程度,要投入大量心血,会耽误我去做很多别的事情。


所以,今年以来,一方面,我改用现成的大型工具。比如之前介绍过的Cursor。它连那么复杂的代码关系都能搞定,处理我的笔记更是小菜一碟了。而且Cursor还自带编辑功能和联网搜索功能,我如果要写点东西的话,用它就很舒服了。


另一方面,比起信息检索,我现在更多是在做知识提炼。


比如我之前分享过,我把上百篇视频脚本、加起来有7.5万字的内容都喂给Gemini,让它帮我提炼我的个人IP内核。


Gemini 2.5 Pro的上下文长度足够大,推理能力足够强,所以非常适合做知识提炼。过去半年,我大量采用这种方法,收获是很大的。


所以我会建议大家,当你的笔记或者各种资料积累到一定程度,一定要停下来,开始做提炼。


第一,人的大脑不是硬盘。无休止地收集只会加重认知负担。


第二,只收藏不提炼,你拥有的只是停留在第一层的信息。


自我提炼的过程,就是强迫自己去思考、去连接、去创造,完成从信息到知识的跃迁。


让AI提炼的过程,就是让AI帮忙发现盲区,发现更多可能的连接。


这个就是我这半年来做得最多的事,非常有用,真心推荐给大家。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询