我要投稿

毕马威用 100 页 Prompt 喂出税务 AI，两周工作压缩到一天

发布日期：2025-08-26 20:27:00 浏览次数： 1886

作者：AI科技前哨站

微信搜一搜，关注“AI科技前哨站”

要多长的 Prompt 才能让一个 LLM 成为行业专家？

KPMG (毕马威) 给出的答案是：100 页。

KPMG 首席数字官 John Munnelly 在 Forrester 亚太技术与创新峰会上透露了一个内部项目：通过一份长达 100 页的「超级说明书」，他们成功打造了一款名为 TaxBot 的税务 AI 助手。

效果如何？

它能在一天内完成我们团队过去需要大约两周才能做完的工作。它会梳理我们的内部文档和税法，为客户生成一份 25 页的税务建议初稿。

两周的工作，一天搞定。效率提升超过 10 倍。

这不仅仅是速度的提升。John 解释说：「如果我们的客户即将进行一项并购，他们想立即了解税务影响，那么在一天内获得这些知识，远比等上两周重要得多。」

一份 Prompt 如何能蕴含如此巨大的能量？KPMG 的 AI 转型之路，又经历了怎样一番波折？

让我们从头说起。

✨ 从「吓掉裤子」到全员拥抱 AI

故事要回到 2022 年底。当 ChatGPT 横空出世时，John Munnelly 敏锐地意识到，这是 KPMG 绝对不能忽视的工具。整个公司的「生活都被改变了」。

然而，最初的蜜月期很快被一盆冷水浇醒。

在鼓励员工进行早期实验时，一次安全扫描发现了「非常吓人」的结果——KPMG 的服务器上，竟然有一个文件明文列出了数千名员工的信用卡号。

这个发现让 John 至今心有余悸：「那绝对吓掉了我的裤子 (That absolutely scared the pants off me)。」

对于 KPMG 这样的专业服务公司来说，声誉就是一切。数据安全是不可逾越的红线。

在没有充分风险评估和数据治理的情况下，将强大的 AI 工具直接接入内部系统，无异于打开了一个潘多拉魔盒。

于是，公司紧急叫停了所有实验，并直接在内部网络中屏蔽了 ChatGPT。

但创新的火焰一旦点燃，就很难被简单地扑灭。

几周后，当 John 度假回来打开手机，发现一长串未接来电。原来，一名刚入职的毕业生将公司屏蔽 ChatGPT 的截图发到了社交媒体上，并配上了一条嘲讽公司创新态度的文字。

这篇帖子迅速发酵，甚至被一家知名的商业报纸报道，标题赫然是：「KPMG，又一次扼杀了创新。」

内部的创新渴望与外部的舆论压力，让 KPMG 陷入了两难。

幸运的是，转机很快出现。

当时，KPMG 正在与微软进行一项全球软件许可协议的谈判。微软主动伸出了橄榄枝：「我们有一些接入 OpenAI 的渠道……我们甚至还不知道如何定价，但你们想要吗？」

这成为了 KPMG AI 征程的真正起点。

🚀 打造 AI 底座：KPMG Workbench 的诞生

接入 Azure OpenAI 服务后，KPMG 的第一步是构建一个安全的、私有化的 AI 平台。John 的团队迅速创建了一个内部版的 ChatGPT，并打上了「Beta」标签，在内部试运行了六个月，收集反馈并评估其对业务的真正意义。

但一个新的问题浮现了：全球各地的 KPMG 分支机构都在进行类似的尝试，大家都在「重复造轮子」，有时甚至在不知不觉中复制了其他国家同事已经完成的工作。

这显然是低效的。KPMG 意识到，他们需要一个统一的、全球化的 AI 基础设施。

于是，KPMG Workbench 应运而生。

这不仅仅是一个简单的模型调用平台，而是一个集成了多种能力的 AI「工作台」，为全球所有成员公司提供：

1. 多模型支持 (Multi-LLM)：KPMG 很早就做出了一个战略决策——不把所有鸡蛋放在一个篮子里。他们认为没有任何一个供应商会永久主导 LLM 领域。因此，Workbench 集成了来自 OpenAI、Microsoft、Google、Anthropic 和 Meta 的多种模型。这使得他们可以根据不同任务的特点，灵活选择最合适的模型。
2. 检索增强生成 (RAG)：这是 Workbench 的核心能力之一。通过 RAG 技术，AI 模型可以接入 KPMG 内部的知识库，增强生成内容的准确性和相关性，而不是凭空「幻觉」。
3. Agent 托管：平台支持构建和部署自主运行的 AI 智能体 (Agent)，让多个 Agent 能够协同工作，完成更复杂的任务。

John 强调：「我们很早就意识到，KPMG 不可能成为一个 LLM 的开发者，我们不会花费 7.5 亿美元去构建自己的大模型。我们的策略是利用好我们的联盟伙伴关系。」

在平台之上，KPMG 建立了一套严格的治理框架——可信 AI 框架。

「这个框架就像赛车上的刹车，它实际上能帮助你更快地过弯。」John 用了一个比喻。公司内部的每一款 AI 工具，都必须通过这个框架的审核才能上线。为了保证客观性，他们甚至设立了一个「可信 AI 委员会」，并邀请了一位大学的独立成员来提供「路人测试」，确保决策的公正。

有了安全可信的底座，KPMG 才真正放开手脚，开始构建改变业务模式的杀手级应用。

而 TaxBot，就是其中最成功的那个。

🎨 核心揭秘：100 页 Prompt 与 TaxBot

税务咨询是 KPMG 的核心业务之一，它极度依赖专业知识、经验和严谨的法律条文。

John 坦言，在构建 TaxBot 之前，最大的挑战之一是知识的整合。公司内最宝贵的税务建议，往往由经验丰富的合伙人撰写，但这些知识「被存储在各个地方」——很多时候，就躺在合伙人自己的笔记本电脑里。

TaxBot 的第一步，就是将这些散落的、高价值的内部税务建议文档尽可能多地收集起来。

然后，团队将这些内部专有数据，与澳大利亚的完整税法一起，喂给了基于 RAG 技术的模型。这就相当于给了 AI 一套专属的、权威的、并且结合了理论（税法）与实践（内部建议）的「教科书」。

但仅仅有好的教材还不够，还需要一位好的「老师」来引导 AI 如何学习和应用这些知识。

这个「老师」，就是那份长达 100 页的 Prompt。

当被问及这份 Prompt 的细节时，John 透露，一个庞大的团队为此工作了数月之久。

这份文档远非我们日常使用的「请帮我写一首诗」那样的简单指令。它更像是一份为 AI 精心设计的软件需求规格说明书和行动手册，可能包含了：

• 角色扮演 (Persona)：定义 AI 的身份，比如「你是一位拥有 20 年经验的顶尖税务合伙人」。
• 任务分解 (Task Decomposition)：将复杂的税务分析任务拆解成一步步的具体操作。
• 输出格式要求 (Output Formatting)：规定生成的报告必须包含哪些章节、图表，以及语言风格。
• 约束与规则 (Constraints & Rules)：明确哪些信息不能包含，哪些法律条文必须引用，以及如何处理模糊或矛盾的信息。
• 工作流程 (Workflow)：定义 AI 在开始工作前需要向人类用户询问哪些关键信息（通常是 4-5 个输入），以及在生成最终文档前，在哪个阶段需要停下来，向人类请求方向指导。

本质上，KPMG 将其顶级税务专家的思维过程、工作流程和质量标准，代码化 成了一份超长的自然语言指令，注入到了 AI Agent 中。

最终的结果是，TaxBot 能够以惊人的速度，生成一份高度结构化、内容详实、有理有据的税务建议初稿。

但 John 也反复强调了一个关键点：

只有税务专家才能使用这个工具，因为它的输出不适合没有深厚税务专业知识的人。

这揭示了 TaxBot 的真正定位：它不是一个取代专家的「全自动机器」，而是一个赋予专家超能力的「超级辅助工具」。

人类专家不再需要花费数周时间去阅读海量文档和撰写基础报告，而是可以将精力集中在对 AI 生成的初稿进行审查、验证、修正和升华上，从而提供更高质量、更迅速的决策支持。

✨ 不止于 TaxBot：AI Agent 协同的未来

TaxBot 的成功只是一个开始。KPMG 发现，这种构建 Agent 的模式可以被复制到更多领域。

他们已经建立了一个 Agent 运行时服务，允许多个不同角色的 Agent——比如「研究员」、「作者」、「编辑」和「管理者」——在一个任务上进行交互与协作。例如，在撰写项目总结时，一个 Agent 负责搜集资料，另一个负责撰写初稿，第三个负责编辑润色，效率大大提升。

John 认为，随着这种 Agent 协作模式的成熟，未来可能不再需要像 TaxBot 那样编写 100 页的庞大 Prompt。

AI Agent 的部署，也对公司文化产生了意想不到的积极影响。

KPMG 将 Agent 主要用于处理那些员工们普遍认为枯燥、耗时且令人沮丧的工作。员工调查显示，当 AI 将他们从繁琐的事务中解放出来后，他们有更多时间去处理「真正棘手的难题」，员工满意度显著提升，并认为公司变得更具创新性。

「他们只是不想做那些无聊的事情，」John 说，「他们想走出去，帮助客户解决那些有挑战性的问题。」

更令人惊喜的是，AI 还带来了新收入来源。一些客户在看到 KPMG 内部使用的 Agent 后，主动提出希望购买这些工具。

「我们获得了意想不到的额外收入流，」John 总结道，「AI 在时间、质量和收入上都为我们带来了好处。」

然而，对于数据主权等跨国公司面临的挑战，John 也坦言尚未看到完美的解决方案，这仍然是全球化部署统一工具的最大障碍。

🎨 社区讨论：信任、泡沫与 Prompt 工程的本质

尽管 KPMG 的案例令人振奋，但在技术社区，经验丰富的开发者和从业者们却泼来了一盆盆「冷水」。他们的质疑主要集中在以下几个方面：

1. 可靠性与幻觉问题

这是最普遍的担忧：

• 我真的很好奇他们对 LLM 的信心从何而来。如果你用过 ChatGPT，你就会高度怀疑其输出的正确性。代码至少可以编译、检查、运行来验证，但一份 25 页的报告，你该怎么验证？
• 幻觉问题无法被修复，它是这个数学模型的基础部分。

尽管 KPMG 强调这是由专家审查的「初稿」，但怀疑论者认为，一个你无法信任其基本事实准确性的工具，其价值究竟有多大？如果 AI 遗漏了合同中的某个关键条款，或者错误地引用了某条税法，后果可能是灾难性的。

2. 验证成本 vs. 生成速度

有人指出：

如果 AI 用 1 天生成报告，但我需要花 2 周去验证它，那我并没有获得太多收益。

这触及了一个关键的 ROI 问题。AI 提升的仅仅是「初稿生成」这一环节的速度。如果后续的验证环节因为 AI 的不可靠性而变得更加耗时和困难，那么总体的效率提升可能并没有听上去那么美好。

3. 咨询行业的本质：客户究竟在买什么？

也有用户认为，这个案例恰恰暴露了大型咨询公司工作的本质：

• 咨询公司的客户们差一点就要意识到，他们花大价钱买来的，有多少是样板化、千篇一律的输出。
• 客户付钱给咨询公司，不是为了获得改变游戏规则的商业策略，而是为了给他们自己早已想好的策略提供『外部掩护』。

在他们看来，AI 只是让这种「样板化工作」的生产成本变得更低了而已。

4. 「100 页 Prompt」究竟是什么？

「100 页 Prompt」这个说法本身也引发了社区的质疑。

听起来他们只是写了一个巨大的软件来辅助高度专业化的任务。我很想知道 LLM 在其中到底增加了什么，也许只是解析自然语言？

有人认为，这本质上就是一种新的编程范式。只不过编程语言从 Python 或 Java 变成了自然语言。

这种对于 LoP (Lines of Prompt) 的吹嘘，就像是用代码行数 (LoC) 来衡量软件价值一样，是一种毫无意义的度量标准。

所谓的「提示词工程」，尤其是在这种规模下，已经非常接近传统的「需求规范编写」或「规则法学」。你不是在与一个充满魔力的黑箱对话，而是在用一种新的、基于自然语言的语法，尝试精确地定义一个软件的行为。

小结

KPMG 的 TaxBot 故事，是企业拥抱生成式 AI 的一个缩影。它展现了一家传统巨头从最初的恐惧、封锁，到谨慎地搭建私有化平台，再到最终通过深度业务结合，打造出提效超过 10 倍的杀手级应用的曲折历程。

外部的社区质疑也指出了当前大模型在企业级严肃场景下落地的核心痛点：可靠性、可验证性和投入产出比。

KPMG 的解决方案——RAG + 超长 Prompt + 专家在环 (Human-in-the-loop)——为这些问题提供了一个现实可行的解法。它没有追求完全替代人类，而是将 AI 定位为专家的「副驾驶」或「外骨骼」，将人类从繁重的、重复性的工作中解放出来，聚焦于更高价值的判断、决策和创造。

或许，这才是 AI 在专业服务领域真实的未来。在这场由 AI 引领的生产力革命中，人类专家的价值，最终将体现在对 AI 输出进行最终确认和承担最终责任上。

同时，复杂的 Prompt/Context 工程或许将成为常态，我们正在学习一种全新的与机器沟通和协作的方式，它既是艺术，也是科学。

变革已经开始，AI 将重新定义专业工作的边界和价值。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业