免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


这可能是Human-in-the-Loop最具象化的演绎 | 长程推理Agent设计实践

发布日期:2025-09-13 17:10:36 浏览次数: 1528
作者:Marcoding

微信搜一搜,关注“Marcoding”

推荐语

AI与人类如何协作才能发挥最大价值?本文通过商业数据分析场景,揭示人机共创的黄金法则。

核心内容:
1. 当前AI Agent设计面临的三大核心挑战
2. 商业数据分析场景如何放大这些挑战
3. 基于无限画布的人机共创交互范式解析

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

当前AI Agent产品一种主流设计思路是追求“一步到位”的自动化体验:将所有工具一次性授予AI,让渡决策权,期望它能独立完成从理解意图到交付结果的全过程。然而,任何深度使用过这类长程推理工具的用户,可能都有过类似的挫败感——AI似乎总是很难完美地达成任务。

这背后并非是AI模型本身能力不足,而是源于三个根深蒂固的挑战:

  1. 意图的模糊性: 用户的真实意图往往不是一次性清晰表达的,而是在探索和交互中逐步明确的。若将一个模糊的初始指令完全交由AI处理,它会基于自身的理解填充大量默认假设,任何一个假设与用户的真实意图产生偏差,后续的所有努力都可能付诸东流,聪明反被聪明误。

  2. “场外信息”的缺失: 人类专家拥有大量AI无法触及的隐性知识和上下文,例如行业洞察、团队间的非正式沟通、或是对特定业务背景的直觉。AI的推理即便逻辑严密,但缺少了这些关键的“场外线索”,就如同在信息真空中进行推演,难以触及问题的本质。

  3. 上下文的过载 : 复杂的推理任务,尤其是探索性分析,往往意味着更长的执行路径和更多的可用工具“积木”。这会导致对话上下文迅速膨胀。在超长上下文中,AI模型容易迷失,遗忘关键指令或在海量信息中失去焦点。

行业共识正在形成:与其追求一个全知全能的自主AI,不如将AI设计为人类智慧的延伸,建立一个持续的“Human-in-the-Loop”机制,构建人与AI的共创伙伴关系,是当下更具可行性也更务实的解决方案。

本文将以一个在上述三个挑战上都尤为突出的场景——商业数据分析——结合一个产品 demo 来剖析一种有效的基于无限画布的人机共创交互范式,并阐述其为何能更高效地解决复杂问题。

尽管案例背景是数据分析,其所揭示的设计原则对于任何面临同样挑战的AI Agent产品都具有普遍的借鉴意义。

阅读本文,您也无需是一名数据分析人员,本文的真正焦点在于其背后通用的协作与推理逻辑。


第一章:为什么商业数据分析是典型的试炼场?

商业数据分析场景,天然地放大了AI独立完成长程任务的难度:

意图模糊是常态

在数据分析里,问题不是一开始就清楚的。分析者往往只看到一个表象(比如销量下滑),接下来要不断拆解、追问,才能逐步聚焦到真正的核心。如果一开始的假设错了,后续再复杂的分析都可能白费,甚至得出误导性的结论。AI若被要求“一步到位”,就容易过早替人补齐一个看似合理的假设,结果把整条推理链带偏。

“场外信息”是关键胜负手

很多关键线索不在数据表里,而存在于分析师掌握的隐性信息中,可能是“我曾听到品控负责人抱怨某个批次的产品有质量问题”,或是“我知道营销团队上个月临时调整了广告投放策略”。这些信息无法被AI自动获取,却是解释数据异常的决定性因素。缺少这类上下文,AI即便能枚举出所有统计学上的可能,也难以锁定真正的原因。

上下文过长是必然

探索性数据分析的路径本质上是非线性的。分析者可能先拆漏斗,再切人群,再回头验证假设,然后跨到另一张表交叉论证。过程中会不断修正思路,路径极长、逻辑交错。再加上跨表查询、不同口径定义等问题,整个对话的上下文会无限拉长。消耗巨量token的同时,AI也很容易在这种非线性推理中遗失关键信息,或在过载的上下文里失焦。

案例场景概述

本案例将围绕一个典型的“归因分析”任务展开:资深分析师小张需找出公司的核心商品 LunaPods耳机 销量为何连续三周大幅下滑 28% 的根本原因。

整个过程并非将任务完全托管给 AI,而是一场人机协同共创的“对话式探索”。小张凭借其业务经验注入关键的隐性上下文(如运营策略调整、品控问题传闻)来主导分析方向;AI 则作为高效的执行伙伴,负责处理海量数据、验证假设并保持过程透明。最终,他们共同揭示了销量下滑是三个核心因素交织作用的结果——这是一个任何缺少人类智慧引导的纯AI推理都极难触及的深度结论。

产品 demo 完整视频4分03秒(视频已加速)


第二章、人机共创的交互范式

一个有效的人机共创范式,核心在于清晰地界定人类与AI的职责。

2.1 人类的职责

在“人机共创”模式下,人类的存在感必须被强化。职责包括:

① 定义宏观方向

澄清意图,对抗模糊性:当小张下达一个宽泛的指令,如“分析销量下滑原因”时,AI并不会自作主张地开始执行,而是主动发起了澄清式提问,要求小张在“GMV销量”“净销量”两个公司内部指标中做出选择,从而在源头上规避无效计算,节约时间与Token成本。

规划确认,小心驶得万年船:小张的每个指令发出之后,都会有一个前序规划步骤(固定的 workflow 编排)。AI会自主查询预先构建好的企业知识库(如业务诊断框架、指标定义库、数据地图、关联关系表等),形成一个初步的行动计划,并将其呈现给用户。例如:“根据我们的诊断框架,将销量按公式 销量 = 流量 × 转化率 × 单均购买数量 拆解,定位核心环节,您同意吗?”。这个确认节点至关重要,它确保了每一步都在正确的轨道上,避免了在一个错误的方向上浪费资源。

导航方向,排除无意义探索:AI 发展到现在,其实倒不用担心 AI 不够聪明,而是过于聪明,不担心它不够积极主动,而是过于积极主动。探索性分析的潜在路径是非常多的,如果不加干预和控制,它会探索各种可能性,最后导致上下文爆炸。用户可以凭借经验排除掉某些显而易见的低性价比路径,而缩小“解空间”。案例中 AI 将销量下降原因定位到转化率下跌,继而利用漏斗分析拆解之后,AI 并没有自作主张推进进一步分析,而是把皮球交回小张。

② 注入隐性上下文 

我们有时候和人沟通,会很诧异对方竟不知晓我们认为理所当然的事,其实是因为“知识的陷阱”——我们默认以为自己了解的对方也了解。

在长程复杂推理的场景中,这是人类无法被替代的核心价值——为AI的逻辑推理提供那块缺失的关键拼图。

在分析过程中,小张基于他个人掌握的“场外信息”,主动提出了几个关键的假设,这些是AI怎么努力都获取不到的:

“运费规则调整”的猜想: 当AI通过数据定位到“结账页→支付成功”环节的转化率下滑时,小张立刻联想到了“月底运营会议上关于提高包邮门槛的激烈讨论”。基于这个线索,他让AI直接对比运费提价前后的用户支付行为,迅速锁定了部分原因。

“产品品控问题”的怀疑: 同样,面对“商品详情页→加入购物车”转化率的下滑,小张想起了“与品控负责人吃饭时,对方抱怨某批次产品存在瑕疵”的闲谈。这个信息将AI的分析方向从常规的价格、页面设计等因素,引向了用户评论分析和特定批次产品的退货率研究。

“竞品降价”的洞察: 小张从行业快报的公众号文章中得知竞品在近期有降价促销活动。他指导AI设计了一个代理指标(如“对比分析‘LunaPods’与‘竞品关键词’在社交媒体上的声量变化”),从侧面验证了竞品活动对自家产品销量的冲击。

没有人类这些源于经验和外部信息的“神来之笔”,AI 的推理就像在真空中进行,即使逻辑再严密,也难以触及真相。你可能会在说,这些数据为啥不能也灌给 AI 呢?且不说实施难度,即便都灌给 AI 了,AI 也会因为上下文过长而迷失,决策更难符合预期。

③ 实施监督干预

在人机共创中,“授权”不等于“放权”。人类分析师作为最终结果的负责人,必须始终保留监督、审查乃至随时接管的权力。

授权管理: 企业数据是敏感资产。AI的每一步探索,尤其当它需要访问新的数据源时,都应经过人类的审核。这确保了AI不会成为一匹脱缰的野马,其所有行为都在人类的监督之下。

深度干预: 当需要更精细、更具灵活性的调整时,人类必须能够无缝接管。在本案例中,“在BI中查看/编辑”的功能允许分析师在任何时候跳出与AI的对话,进入一个完全自由的BI环境进行深度探索和最终修正。

2.2 AI 的职责

当然,AI不是完全就被“降智”了,依旧有很多工作需要 AI 来完成,我们只是让AI 执行的任务更聚焦。

题外话:有尝试 AI coding 的朋友也会有类似的体悟,任务拆分越细致,越是聚焦的场景,AI 执行越能“一稿过”。

① 高效执行核心任务

在人类的明确指令下,AI展现出惊人的执行效率。无论是处理百万级的用户行为日志、执行跨多个数据源的多表关联查询,还是对上万条用户评论进行情感分析,AI都能在秒级或分钟级完成人类需要数小时甚至数天才能完成的“战术执行”工作,极大地加速了假设验证的循环。

当然,我们必须认识到“垃圾进,垃圾出”是数据科学的第一铁律,这里的默认核心前提是:企业已为AI准备好了高质量的数据土壤与统一的治理口径。

② 保证过程透明

一个值得信赖的AI搭档,其工作过程不应是“黑盒”。它必须主动地、持续地将自己的“思考”暴露给人类,以确保双方在漫长的推理链条中始终步调一致。

提供事实核查:前文提到,在用户发出每一次指令之后,都会先跑一轮预编排的 workflow,获取特定知识,理解用户的指令。尤其是数据分析场景,对精度要求特别高。这个步骤中 AI 会自主查询企业的知识库(业务诊断框架、业务术语/黑话库、指标定义库、数据地图 等),查询之后,相关的事实会带上角标,用户可核查。

披露思考过程:把思考过程和执行过程透明化,已然成为当前行业共识的标准做法。AI在执行任何指令前,都会先用自然语言复述它的理解和行动方案,让人类有机会在第一时间修正偏差,本质上是 AI 与人类的 “意图对齐” 过程。

披露执行细节:更进一步,这种透明性应贯穿始终。当AI在执行分析时,它不应只是一个旋转的加载图标。系统应允许用户随时“下钻”查看其背后的执行细节。例如,当用户对某个图表的准确性产生怀疑时,可以查看其生成的SQL查询代码。能迅速定位问题是源于AI对业务术语的误解,还是遗漏了某个关键的过滤条件。

③ 主动建议补充

查缺补漏:人类难免也有想不全的时候,在提供了大方向之后,AI 也有了充足上下文,此时补充建议会更有效。例如在本案例中,分析师小张关于“运费规则调整导致转化率下滑”的假设中,要求 AI 验证“运费变更的系统日志”以及“客服工单中‘运费’相关工单占比变化”。而 AI 在此基础上补充了用户行为佐证的分析——“查询「单件商品订单」在结账页的放弃率变化”,使得论证更加 solid。

整个过程,就像是一系列紧密衔接的“计划-执行-检查-行动”(PDCA)循环。人类与AI通过高频次的短交互,不断对齐认知、修正路径,共同将分析推向深入,而不是被动地等待一个可能会“惊掉下巴”的最终结果。


第三章、UI 选型——为什么选择无限画布?

我始终认为交互设计需服务于功能。

对于这种非线性、探索性的人机共创任务,传统的线性对话流界面暴露了其局限性。而无限画布,则天然地契合了“共创”的需求。

3.1 逻辑路径 的可视化呈现

探索性分析的路径充满了分叉、回溯和并行的假设验证。无限画布通过节点和连线的形式,将整个分析的逻辑脉络完整地可视化出来,让用户和AI共享了一张清晰的“语义地图”。在本案例中,小张可以创建多个分支,并行发起多个假设验证,而画布可以很直观地呈现这种多线程结构。相比之下,线性对话流在处理多分支探索时,用户很容易迷失在冗长的聊天记录中,难以追溯不同假设间的关联。

3.2 上下文管理的显性化表达

无限画布为管理复杂的上下文提供了直观的载体。

① 宏观与微观视角

当画布缩小时,每个分析节点会仅显示其核心结论(标题),这帮助用户从宏观上把握整个分析的全貌,这与AI在处理长上下文时会压缩和提炼早期信息的原理不谋而合。

② 当前上下文的聚焦

通过“蚂蚁线”视觉元素,清晰地标示出当前AI执行任务所依赖的上下文链条。例如,在验证不同假设时,所关联的上游节点是不同的,画布可以直观地呈现这种差异,让用户始终清楚“我们现在在哪,依赖什么执行当前步骤”。

而最终的贡献度计算,会把验证成立的假设连接在一起,排除掉部分成立或不成立的假设。

无限画布不仅仅是一个界面,它本身就成为了人机协同过程中的一个认知工具,降低了沟通成本,提升了协作效率。


结语:拥抱不完美,回归协作的本质

以商业数据分析为代表的复杂推理任务,其内在的“意图模糊”、“场外信息缺失”和“上下文过长”三大特性,决定了我们应该放弃对“一句话完成任务”这类全自动化Agent的幻想。

“Copilot”这个概念大家都不陌生,我认为我一直以来对它的理解不够深刻,本文一定程度上是基于近期的实践对这个概念的具象化诠释。在这个范式中,人类负责掌舵,通过澄清意图、注入隐性知识来引导方向;AI则作为强大的引擎,负责加速执行、管理复杂流程并保证透明。双方在各个环节紧密协作,确保始终步调一致(Stay on track)+认知同步(on the same page)。

这种看似更“笨拙”、交互更频繁的模式,实际上是一种更务实、更强大的AI应用方式。它承认了AI的不完美,并巧妙地利用这种不完美,创造出1+1>2的共创价值。这或许才是当前阶段AI在专业领域真正赋能人类的应有之义。



关联阅读

Vibe coding 实战:自主规划、能调工具、有记忆的Agent,开发思路全公开 | 大白话科普版 本文话题涉及:

  • 为什么垂类 Agent 比起通用 Agent 执行效果更好?

  • 编排任务应不应该完全交给 AI?

  • 上下文工程几个核心手段的最通俗解释

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询