免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Skywork技术论坛一手分享:Agent与多模态的落地真相|甲子光年

发布日期:2025-08-21 21:46:42 浏览次数: 1510
作者:甲子光年

微信搜一搜,关注“甲子光年”

推荐语

Agent与多模态技术如何突破商业化困境?行业大咖分享最新落地实践与思考。

核心内容:
1. C端Agent商业化的现实挑战与出海机会
2. Agent能力提升的关键:环境复杂度与垂直场景深耕
3. 多模态技术突破路径与训练方法论创新

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

拐点未现,应用仍在路上。


整理|田思奇

编辑|栗子


在人工智能进入高速迭代的第三年,行业的注意力已从单一模型的参数和能力,转向能否真正落地。Agent的落地拐点、多模态的应用前景,和系统架构的扩展性,成为这一波技术讨论的三条主线。


8月19日,在昆仑万维发起的第一期Skywork全球技术论坛讨论会中,来自南洋理工大学、清华大学、上海交通大学、香港中文大学等高校,以及苹果、谷歌、Meta、微软、英伟达、硅基流动等公司的十余位国内外嘉宾,围绕主题「探索大模型边界:从强化学习到多模态推理,以及Agent的下一站」,展开长达数小时的深入交流。


ROI是否足以支撑Agent商业化,长上下文如何在延迟与成本间取得平衡,多模态的研究路径是否已触及天花板?对于这些核心问题,与会者提出了许多坦率的判断。


行业当下的真实处境依然是:热度仍在,但“如何被真正用起来”才是关键。


以下为本次技术讨论会的核心观点,经过编辑整理:




1.短期内,C端Agent更可能选择出海

Agent 商业化拐点是否已经到来?


Agent在2025年被推到热潮中心,被寄望成为下一代人机交互的入口。但现实依然是:看收入就行。Coding已经出现了拐点,而Agent还没有。技术热度尚未在商业层面兑现。


尤其在中国市场,长期被免费教育的用户对订阅付费意愿极低,这让Agent的商业转化更加艰难。


为了衡量这种矛盾,有人提出了“Agentic ROI”的概念——便利与交互成本的比值。只有当这个比例足够高,用户才会愿意付费。但在国内,大厂几乎免费的竞品让ROI接近为零,进一步压低了商业转化。短期内,C端Agent更可能选择出海,到订阅习惯更成熟的市场寻找机会。


但放眼未来一两年,国内随着成本下降、应用数量增加,ROI有望逐步提高,商业化拐点也才可能真正到来。




2.如果环境单一,Agent的能力很快触顶

Agent的壁垒在哪里?


在竞争激烈的市场环境里,通用Agent难以形成优势,真正能走深的是行业知识和垂直场景。当前,编程与数学是 token消耗最大的应用方向,因为数据充足、模式清晰,容易形成可复制的能力。但在其他领域,数据不足让产品很难走向深入。对于中国团队而言,只有找到明确的垂直场景,才能在出海市场站稳。


同时,过去推动模型进步的方式是“堆数据”和加长序列,在纯文本时代行之有效。但进入Agent阶段后,这种规模扩展已不够。环境复杂度才是关键:如果环境单一,Agent的能力很快触顶。研究者普遍关注的,是如何创造并搭建多样化的环境,让模型能在更复杂的情境中学习与交互,否则再强的算力也无法支撑能力提升。




3.任务与奖励的设计决定了Agent能否学到有效策略

多轮训练需要什么样的任务与奖励?RL是否能建立通用标准?


Agent训练的难点往往在于任务本身没有定义好。多轮训练需要难度递进的任务,同时需要低噪声的奖励,否则模型难以学到可复制的策略。动作空间的设计同样关键:自由度越高,潜力越大,但训练难度也会急剧增加。


业界正在探索异步采样的训练架构,以并行方式加快进程,但也带来了算法一致性的新问题。随着训练轮数增加,上下文管理也逐渐成为瓶颈。而更根本的困境在于,语言模型之所以成功,是因为找到了可扩展的训练机制;而在强化学习中,尚没有类似的“通用奖励标准”。在多智能体和复杂场景下,什么才算“做得好”,至今没有统一答案。缺乏稳定反馈,就无法形成可复制的能力。




4.多模态强化学习的生态突破

多模态如何增强Agent训练?奖励机制如何迁移到生成任务?


多模态被认为是潜在的突破口,但现有模型并不适合作为Agent前端,在复杂界面下的理解力不足。如果在预训练阶段引入Agent场景,或采用更激进的混合训练方式,有可能培养更强的长程理解力。但前提是Agent必须具备反思和回退的能力,否则随着工具数量增加,错误率会被放大。


生态短板也不容忽视。目前缺乏开源的原生多模态模型,大公司虽然掌握了强大的视频和多模态能力,但并不开放,这让社区几乎没有机会在多模态模型上做后训练,只能依赖有限的闭源接口。这是一个硬伤。


另一方面,对“环境”的重新理解也在发生。传统RL依赖成百上千个环境保证泛化,而在大模型时代,文本框本身就是一个环境,叠加指令即可形成多任务,关键不在于环境数量,而在于数据质量。


与此同时,研究者正尝试通过奖励机制来衡量视频与图像的生成效果,把人类偏好直接引入训练。GRPO虽在推理上很有效,但生成任务主流方法是基于流匹配的确定性采样,缺乏随机性,难以直接迁移。后来出现的Flow-GRPO等改进,把奖励信号与训练方式统一起来,改善了生成任务中的动作连贯性和一致性。这种方法足够简单,可以扩展到视频等更多生成任务,让过去“不收敛”的探索出现了可操作路径。




5.娱乐场景或许更先爆发

为什么要默认Agent的突破口一定是生产力?


判断拐点的方式未必只有收入曲线,使用情况同样能说明问题。如果用户一轮又一轮追问,而模型能够不断生成越来越多的内容,这意味着系统已经进入正向循环。


有观点认为:“比如让我每月花二十块订个Agent,我会犹豫。但让我买个玩具、看看视频,我花钱更开心。” 从用户消费心理来看,娱乐反而更可能率先迎来爆发。虚拟伴侣、游戏NPC、视频创作助手等场景在海外已经跑出用户基础,未来或许比效率工具更早打开市场。


长远来看,Agent的能力增长可能依赖于一种“双轮过程”:基础模型先预训练,再让Agent在具体任务里积累经验数据,这些数据反过来提升模型,再进入更复杂的新任务,如此往复。用户一旦感受到Agent能力增强,就会提出更难的任务,这时必须依靠Agent framework去扩展范围,再把经验积累回馈给模型。


这种循环一旦建立,能力会快速迭代。未来一年内可能出现首批Agent基础模型,初期可能很小,但会在端侧设备和专业任务场景率先落地。长远来看,未来千亿级别模型的训练数据,很可能大部分都来自Agent自身的经验。


当前的使用数据揭示了另一种信号:在OpenRouter的统计中,Coding调用token占比高达87%,Roleplay占8%。只有当这种使用高度集中的情况逐渐变得均匀,Agent才算真正进入各行各业,那才是真正的拐点。




6.多模态正在拓展自然交互方式,任务设计成关键变量

如何找到合适的规模化任务?


最近多模态方向的开源工作包括Skywork出品的R1V多模态推理系列,以及有“开源Genie3”之称的Matrix-Game 2.0系列,但是范式的可持续性已经显露出问题。强化学习与扩大规模仍能奏效,但前提是不断找到新的任务与数据。


现实困境在于:合适的任务越来越稀缺。机器人也被视为潜在方向,却因环境规模化难度过高而受阻。即便是OpenAI也并没有把重心放在机器人或复杂场景,而是选择继续打磨策略与模型本身。在现有的商业框架下,多模态理解、生成与对话系统仍然可以运作,但长期来看,这条路能走多远,仍是一道开放问题。


应用层面,多模态输入能让交互更自然。用户拍一张照片就能生成PPT,用图像替代复杂的文字描述——这些都是比键盘更高效的表达方式。他发现国内一些金融公司在应用的落地速度上甚至领先美国,说明多模态并非虚无缥缈,而是正在改变办公和业务流程。


但也有观点认为,端侧模型确实能让日常操作快上几秒钟,但差异远未达到革命性。他举了一个例子:即便系统能帮用户自动完成外卖下单,从点餐到支付全程无缝衔接,但和用户自己点单相比,本质差别并不大。真正的突破必须在交互体验中产生质变,而不是仅仅“更快”。


3D和AR/VR领域的瓶颈在于用户规模,连微软的专业设备都卖不动。相比之下,视频应用更接近大规模落地。这种分化的现状说明:多模态的延伸正在遭遇任务稀缺与应用分化的双重挑战。




7.世界模型需要找到新的数据采集方式

游戏与虚拟世界能否带来突破?


世界模型是多模态讨论的焦点。Genie3带来的震撼仅次于Sora,它展示了开放世界的潜力。目标是从《我的世界》逐步逼近GTA级别的复杂度,核心在于物理一致性,而这正是世界模型的关键。


基于此,新的尝试正在出现。Matrix-Game2.0被称为“开源Genie3”,它不仅能生成开放世界,还能支持多人协作。未来的世界模型不能停留在单人键盘操作,而要支持多人协作:同一虚拟世界里,每个人共享场景,但从不同视角互动。他设想用户不仅通过键盘控制,还能用即时输入修改环境,比如加入新的元素或特效,再继续探索。基于视频生成的世界模型与视频编辑在他看来本就是一体,只是交互方式不同。


然而,进展背后也存在清晰的局限。模型的一致性和多样性虽在快速进步,但交互动作空间依旧过窄,只能支持简单动作。更关键的是,真实世界数据依然稀缺,反向标注视频误差大。如果未来能普及长续航的采集设备,让普通人日常携带并录制场景,也许才能提供有价值的训练数据辅助世界模型。




8.生成与理解融合是长期方向,短期内拼接更可行

生成是否能反哺理解?统一模型是必然还是工程折中?


生成与理解是否应该统一,是多模态研究中最具争议的问题。回顾GPT-4的实践可以看出,图像生成与理解在后训练阶段其实是两套流程,并非真正统一。虽然在预训练阶段可能存在互相促进,但缺乏明确证据。理解可以帮助生成,但还没有看到生成显著帮助理解。


同时,生成追求极细节,理解则是抽象语义,硬统一可能适得其反。多数公司选择保留两套模型,各自最优。这类“统一模型”,往往只是工程折中而已。


另一种声音坚持统一的价值。在实际服务中,用户咨询足球鞋时,模型不仅文字解释,还能自动生成图像,展示鞋钉与场地的对应关系。这种“理解+生成”的一体化体验,才真正体现了多模态的意义。


但在工程层面,拼接方案短期更稳健。生成需要低层次特征,理解偏高层抽象,两者难以兼容,训练也更难收敛。相比之下,把理解模型的推理能力注入生成流程,反而能显著提升质量,减少幻觉。因此他判断,短期和中期拼接方案会是主流。


一体化模型Skywork UniPic系列作为拼接派代表工作之一,让“理解—生成—编辑”在统一表示里闭环;同时又与奖励模型的耦合,实现了前沿的生成和理解效果,也兼顾落地稳定性。




9.音频有望成为主流人机交互入口

语音交互的挑战是什么?数据困境如何突破?


在视觉之外,音频被普遍认为是下一个潜在突破口。音频生成正在经历结构性变化:从低采样语音逐步迈向高保真音乐,从单声道过渡到沉浸式环绕声,再到与视频模态的紧密结合,这些演进都意味着新的交互可能性。例如,当音频与视频一同输入时,模型在理解层面的表现往往会更准确。


但与视觉相比,音频领域的问题更加棘手——风格和情绪标签的主观性,使得标注难度极高,不同人往往无法达成一致。这种数据困境,让音频模态的潜力显得既诱人又难以把握。


展望未来,分歧依然存在。有人判断多模态将长期赋能智能硬件与机器人,渗透到更多终端设备;也有人主张借鉴人脑的模块化架构,让感知、记忆、推理分区运作,再通过协调实现低功耗与可解释性;另一条路线则是继续追求大一统模型,用跨模态超大规模数据和新架构寻求突破。与此同时,也有人强调工程可行性,认为拼接与大一统会长期并行发展。


在交互层面,语音被寄予厚望。相比文字输入,语音更自然直观,也能承载情绪与语气。用户之间或者用户与模型之间,可以仅通过自然语音共建世界模型,边说边生成,动态地改造和拓展虚拟世界。这种方式比打字更高效直观,也更符合人类的交流习惯。


不过语音交互仍面临一些挑战:口头指令往往含糊,复杂操作可能需要与文字或图形界面结合;而“边说边生成”对模型的实时响应也提出了算力和延迟方面的更高要求。他相信语音将在未来成为多模态协作的重要入口。




10.长上下文是最大的瓶颈,也是最核心的价值

长上下文如何改变Agent的应用场景?


当视角转回系统层面,问题就更加直接:长上下文带来的延迟与显存压力。从Linear到Sparse,从MoE到非对称稀疏,工程层的博弈决定了这些探索能否真正落地。


随着模型输入长度从2023年的8k、32k,扩展到2024年GPT-4-turbo的128k、Claude 3的200k,以及Gemini 1.5 Pro的1M token,上下文的急剧增长推高了计算成本。推理显存占用不仅线性增加,推理所需计算量甚至呈超线性上升,一次对话的成本可能从几毛钱涨到数元甚至数十元。企业被迫通过缩短输入或拆分任务来规避,但当长上下文成为刚需,这种矛盾愈发尖锐。


长上下文已成为Agent应用的最大瓶颈——很多功能要么慢,要么价格高,根源都在上下文过长。即便做到百万级上下文,检索增强机制会长期存在,本质上类似人类的长期记忆调用。“人的工作记忆很短,很多信息都靠长期记忆检索,AI也是一样,即便做到百万级上下文,检索仍然需要,只是更高效。




11.混合注意力架构正在成为趋势,但算法选择与工程代价尚未收敛

Linear与Sparse的分歧能否统一?


在长上下文压力下,业界逐渐分化为Linear与Sparse(如DeepSeek团队提出的NSA)两大派系。但现实是,两者并非非此即彼,而是常常需要混合使用。MiniMax的模型就交错结合了Linear Attention和Global Attention,甚至可以尝试把Global部分换成NSA,看是否能互补。然而,这类实验几乎没有团队真正做过,因为资源消耗太大。Sparse尚未在大模型中展现出决定性优势,Linear也存在信息丢失问题,单走一条路现在都不够好。


具体到方案,Linear Attention的问题在于它对所有位置一视同仁,和语义层级特征不符,高层语义理应更粗粒度。而NSA至少能做到先粗选再细推,符合语义处理规律。但NSA的工程复杂度很高,目前体验也不理想。另一种方向是Log-Linear状态空间,它能让状态随时间以对数方式扩展,更像人脑的记忆曲线:“信息逐渐累积,但不是均匀增加。”未来也可能出现更直观的方案,比如模拟记忆曲线或KV压缩。


这些探索说明,混合注意力机制正走向主流,但在算法选择与工程代价之间仍未收敛。




12.稀疏化与MoE展现潜力,硬件支持将决定规模化未来

MoE如何避免显存失衡?非对称稀疏能否更高效?


长上下文引发的是“记忆”的争论,而MoE直指“激活”。MoE的细节差异常常决定效果。共享专家机制并非必要,过细的路由还可能导致GPU显存分配失衡。一种改进思路是让非关键信息token限制专家路由,把算力集中在关键token上。另一种设想是“非对称稀疏”:不同token激活不同规模的专家,简单任务提前中止,复杂任务调用更多层。这可能更高效,但目前尚无成熟实践。


稀疏化的潜在收益很大,但优化难度同样增加。细粒度稀疏潜力巨大,却难以工程化;结构化稀疏是当前现实的折中方案。GPU的特性决定了这一限制:人脑是全稀疏的,而GPU并不擅长非结构化稀疏。MoE在宏观上稀疏、微观上稠密,恰好契合GPU的block结构,因此能落地。如果未来硬件能更好支持稀疏计算,微观稀疏化也许才可能真正规模化。


这也解释了为什么大模型发展不能仅依赖参数和算法叠加,而需要结构稀疏化、训练异步化和系统异构化的协同演进。GPT-5迭代速度放缓,正是实验资源逼近极限的直接反映。


这类架构问题往往在营销叙事中不被强调,但它们决定了大模型能否真正走出实验室,商业与技术如何对齐,研究与应用如何衔接,这才是今天最现实的矛盾。


从Agent到多模态,再到系统架构,Skywork技术研讨会嘉宾很难较短的时间内提出最终的解决方案,但核心问题均已浮出水面。对昆仑万维而言,举办这样的研讨,将有力推动产业界与学术界在关键议题上达成共识。接下来,Skywork技术论坛讨论会研讨会还将持续展开,而这些未竟的对话,本身就是值得关注的方向。






END.







53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询