2026年4月10日 周五晚上19:30,来了解“从个人单点提效,到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

用 LlamaIndex 让 AI 读懂你的 Excel:三种方案详解

发布日期:2026-04-08 10:52:03 浏览次数: 1534
作者:技术吧

微信搜一搜,关注“技术吧”

推荐语

让AI真正理解Excel数据不再是难题!本文详解LlamaIndex的三种高效解决方案,助你解锁企业80%的数据价值。

核心内容:
1. Excel数据处理的独特挑战与RAG技术难点
2. PandasExcelReader默认方案的实现原理与实战应用
3. 进阶配置技巧与Sheet级数据处理最佳实践

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

企业 80% 的数据藏在 Excel 里。如何让大模型真正"读懂"这些表格数据?本文基于 LlamaIndex 0.14.19 源码,拆解 Excel 索引建立的完整机制。


为什么 Excel 对 RAG 来说很棘手?

做 RAG(检索增强生成)时,PDF、Word 这类文档本质是"一段段文字",切分起来相对自然。

但 Excel 不一样——它是「结构化的二维表格」。直接把单元格的值拼成一串文字,AI 就丢失了"哪个值属于哪一列"的关键信息。

LlamaIndex 的解法是:「把列名(表头)和每个单元格的值绑定在一起」,让每一行数据都自带语义上下文。


方案一:PandasExcelReader(默认,开箱即用)

这是 LlamaIndex 的「内置默认方案」。当你用 SimpleDirectoryReader 加载一个目录时,框架会自动识别 .xls / .xlsx 文件,并调用 PandasExcelReader 来处理。

它是怎么工作的?

一句话概括:

「Excel → pandas 读取 → 每行转成 "列名: 值" 的文本 → 封装成 Document」

举个例子,你有这样一张表:

姓名
职位
部门
张三
工程师
技术部
李四
设计师
设计部

经过 PandasExcelReader 处理后,会变成这样的文本:

姓名: 张三, 职位: 工程师, 部门: 技术部
姓名: 李四, 职位: 设计师, 部门: 设计部

每一行数据都带上了列名,AI 就能准确理解"张三是工程师"而不是把"张三"和"设计师"搞混。

最简用法

from llama_index.core import SimpleDirectoryReader, VectorStoreIndex

# 把 Excel 文件放到 data 目录下,一行代码搞定
documents = SimpleDirectoryReader("./data").load_data()
index = VectorStoreIndex.from_documents(documents)

# 开始提问
query_engine = index.as_query_engine()
response = query_engine.query("技术部有哪些人?")

进阶配置

from llama_index.readers.file import PandasExcelReader

reader = PandasExcelReader(
    concat_rows=False,    # 每行生成一个独立 Document(适合大表格)
    sheet_name=0,         # 只读第一个 Sheet(默认读所有 Sheet)
    pandas_config={       # 传给 pandas 的参数
        "usecols""A:D",   # 只读 A~D 列
        "nrows"1000,       # 只读前 1000 行
    }
)

documents = SimpleDirectoryReader(
    "./data",
    file_extractor={".xlsx": reader, ".xls": reader}
).load_data()

concat_rows 怎么选?」

  • 表格小于 100 行 → 用 True(默认),保持完整上下文
  • 表格超过 1000 行 → 用 False,每行独立成 Document,检索更精准
  • 每行语义独立(如 FAQ 列表) → 用 False
  • 行间关联紧密(如财务报表) → 用 True

方案二:StructuredDataReader(精细控制)

默认方案把所有列都塞进正文。但很多时候,你只想检索部分列的内容,其他列作为辅助信息。

StructuredDataReader 就是为这个场景设计的——「你可以指定哪些列进正文、哪些列进 metadata」

为什么需要这个?

假设你有一张销售数据表:

订单号
客户名称
产品
金额
日期
ORD001
王五
笔记本电脑
8999
2024-01-15

如果把所有列都放进正文做向量检索,"订单号"和"日期"这类字段会引入噪音。更好的做法是:

  • 「正文」(用于向量检索):客户名称、产品
  • 「Metadata」(用于过滤):订单号、金额、日期

用法示例

from llama_index.readers.structured_data import StructuredDataReader
from llama_index.core import SimpleDirectoryReader

reader = StructuredDataReader(
    col_index=["客户名称""产品"],      # 这些列的内容进入正文
    col_metadata=["订单号""金额""日期"]  # 这些列作为 metadata
)

documents = SimpleDirectoryReader(
    "./data",
    file_extractor={".xlsx": reader}
).load_data()

生成的 Document:

  • 「text」 = "王五, 笔记本电脑"
  • 「metadata」 = {"订单号": "ORD001", "金额": 8999, "日期": "2024-01-15"}

这样,向量检索只匹配"客户+产品",而日期、金额等字段可以用 metadata filter 做精确过滤。

安装

pip install llama-index-readers-structured-data

方案三:UnstructuredReader(万能但较重)

如果你的文件格式多样,不只有 Excel,还有 PDF、Word、PPT 混在一起,可以考虑 UnstructuredReader。它基于 Unstructured.io 库,支持数十种文件格式。

from llama_index.readers.file import UnstructuredReader

reader = UnstructuredReader()
documents = reader.load_data(file=Path("data.xlsx"))

需要额外安装 unstructured 库,且体积较大。对于纯 Excel 场景,前两种方案更轻量。


完整流程图

读完 Excel 只是第一步。从文件到可查询的索引,完整链路如下:

📄 Excel 文件
    ↓  Reader 读取
📝 Document (text + metadata)
    ↓  NodeParser 分块
🧩 TextNode[]
    ↓  Embedding 模型向量化
🔢 向量
    ↓  写入 VectorStore
🗄️ 索引建立完成 → 可查询

三种方案怎么选?

场景
推荐方案
快速验证、表格不大
PandasExcelReader(默认)
需要精确控制哪些列参与检索
StructuredDataReader
多种文件混合处理
UnstructuredReader
超大表格(10万行+)
建议预处理后再导入

踩坑提醒

「1. 别忘了装 openpyxl」

PandasExcelReader 底层依赖 openpyxl,没装会直接报错:

pip install openpyxl

「2. 大表格别用 concat_rows=True」

所有行合并成一个 Document,文本可能达到几十万字符,后续分块和向量化都会出问题。大表格请设 concat_rows=False

「3. 合并单元格的坑」

Excel 中的合并单元格,pandas 只会在左上角单元格保留值,其余位置读出来是空值。LlamaIndex 会把空值替换为空字符串,但语义上可能不完整。建议在导入前先取消合并单元格。

「4. 多 Sheet 要注意」

默认会读取所有 Sheet。如果你的 Excel 里有很多辅助性的 Sheet(如"说明""模板"),建议指定 sheet_name 参数,只读取目标 Sheet。


写在最后

Excel 在企业中无处不在,让 AI 能高效检索表格数据,是 RAG 落地中绕不过的关键一步。

LlamaIndex 的设计思路很清晰:「把结构化数据转换为带语义上下文的自然语言文本」,然后复用整个 RAG 管线。三种方案覆盖了从"开箱即用"到"精细控制"的不同需求。

建议从默认的 PandasExcelReader 开始,如果发现检索效果不理想、噪音太多,再切换到 StructuredDataReader 做精细化控制。


本文分析基于 LlamaIndex v0.14.19 源码。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询