我要投稿

语义分块真的有效吗？

发布日期：2024-10-21 19:41:19 浏览次数： 3322

作者：深入LLM Agent应用开发

微信搜一搜，关注“深入LLM Agent应用开发”

最近看到一篇有意思的论文《Is Semantic Chunking Worth the Computational Cost?^[1]》，论文探讨了在检索增强型生成（Retrieval-Augmented Generation, RAG）系统中，语义分块（semantic chunking）与传统固定大小分块（fixed-size chunking）的效率和性能比较。

语义分块旨在通过将文档分割成语义上连贯的段落来提高检索性能。尽管语义分块越来越受欢迎，但其相对于固定大小分块的实际好处仍然不清楚。这项研究系统地评估了语义分块的有效性，使用了三个常见的与检索相关的任务：文档检索、证据检索和基于检索的答案生成。

为了测试对比语义分块是否有效，作者设计了 3 种分块策略，如下图所示。

固定大小分块器（Fixed-size Chunker）：这是基线分块器，它根据预定义或用户指定的每个分块的句子数量将文档顺序分割成固定大小的分块。
基于断点的语义分块器（Breakpoint-based Semantic Chunker）：这种分块器通过检测连续句子之间的语义距离阈值来分割文本，以保持连贯性。
基于聚类的语义分块器（Clustering-based Semantic Chunker）：这种分块器利用聚类算法按语义分组句子，捕捉全局关系，并允许非连续文本分组。

文档检索

文档检索测试结果如下表所示。大部分场景都没有明显的差距，除了 Miracl 和 NQ。而这些标*的表示这些都是基于一些较短的句子缝合到一起的，本身句子之间具有较强的独立性。

Dataset	Fixed-size	Breakpoint	Clustering
Miracl*	69.45	81.89	67.35
NQ*	43.79	63.93	41.01
Scidocs*	16.82	17.60	19.87
Scifact*	35.27	36.27	35.70
BioASQ*	61.86	61.87	62.49
NFCorpus*	21.36	21.07	22.12
HotpotQA	90.59	87.37	84.79
MSMARCO	93.58	92.23	93.18
ConditionalQA	68.11	64.44	65.94
Qasper	90.99	89.27	90.77

证据检索

证据检索结果如下表所示。在这种测试下，三者几乎不存在差异。

Dataset	Fixed-size	Breakpoint	Clustering
ExpertQA	47.11	47.08	46.87
DelucionQA	43.05	43.24	43.36
TechQA	28.98	28.49	27.96
ConditionalQA	18.23	19.83	19.14
Qasper	8.66	8.16	8.50

答案生成

基于检索的答案生成测试如下表所示，可以说没有任何区别。

Dataset	Fixed-size	Breakpoint	Clustering
ExpertQA	0.65	0.65	0.65
DelucionQA	0.76	0.76	0.76
TechQA	0.68	0.68	0.68
ConditionalQA	0.42	0.43	0.43
Qasper	0.49	0.49	0.50

总结

研究结果表明，语义分块的计算成本并没有通过一致的性能提升来证明其合理性。这些发现挑战了之前关于语义分块的假设，并强调了在 RAG 系统中需要更有效的分块策略。总体而言，固定大小分块对于实际的 RAG 应用来说仍然是一个更有效和可靠的选择。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-18

函数计算 AgentRun 重磅上线知识库功能，赋能智能体更“懂”你

2026-02-15

当RAG遇上Agent记忆：为什么相似度检索会"塌方"？

2026-02-15

查个问题还要全图跑一遍？DA-RAG说我只取一瓢

2026-02-14

OpenClaw 终于能"记住"事了！我花了 3 周折腾出的长期记忆系统

2026-02-13

深度解析 PageIndex：无向量 RAG 框架的技术实现与原理剖析

2026-02-12

走进 OceanBase 向量背后的算法库 —— VSAG

2026-02-11

开源：我们复刻了OpenClaw的mem系统，为所有Agent打造透明、可控的记忆

2026-02-10

Data Agent Ready Database：下一代企业数仓架构

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

RAG 深度解读：检索增强生成如何改变人工智能

2025-12-04

大模型RAG入门宝典｜从AI搜索到实战搭建，小白&程序员必收藏的检索增强指南

2025-12-03

2026 年你需要了解的 RAG 全解析

2026-01-15

企业级 AI Agent规模化落地的避坑指南，就藏在这四大趋势里

2025-12-02

如何用NotebookLM，把枯燥的财报解读成精美的PPT？

2026-01-02

为什么Claude Code不用RAG？

2025-12-23

Embedding模型选型思路：相似度高不再代表检索准确（文末附实战指南）

2025-12-07

从 RAG 到 Context：2025 年 RAG 技术年终总结

2025-12-18

告别向量数据库！PageIndex：让AI像人类专家一样阅读长文档

2026-02-03

RAG知识库迎来大洗牌：GraphRAG如何让机器真正读懂世界？

2025-11-23

大家都在问

当RAG遇上Agent记忆：为什么相似度检索会"塌方"？

2026-02-15

Claude Cowork 真能替换 RAG ？

2026-02-04

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

为什么 RAG 越用越慢？如何反向调优？

2026-01-19

NotebookLM如何在48小时内分析2万份论文？

2026-01-12

都有混合检索与智能路由了，谁还在给RAG赛博哭坟？

2026-01-08

如何用NotebookLM，把枯燥的财报解读成精美的PPT？

2026-01-02

为什么Claude Code不用RAG？

2025-12-23

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部