支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


从AI落地的视角看看Infra的需求

发布日期:2025-06-09 07:18:09 浏览次数: 1538 作者:zartbot
推荐语

AI落地进程中,基础架构需求如何演变?本文深入探讨AI应用落地对Infra的影响及商业模式变革。

核心内容:
1. AI应用落地的执行模式转变:由同步到异步
2. AI应用的商业模式与付费意愿分析
3. 从互联网应用到AI应用的演进脉络

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

TL;DR

AI应用落地的实质是由人参与的同步执行, 转化为更高并发的异步执行...人开始向机器寻求洞察力。这种洞察力体现在由机器以数据为中心的计算模式,这种模式并不是简单的去处理数据,而最大的变革是要从数据中抽取能够产生决策的代码.

最近和一些朋友都在聊这个话题, 虽然现在看上去应用逐渐繁荣起来了, 但是还存在一些问题. 例如Agent的执行成功率, 大模型本身的代码理解能力等, 有些Demo也就是跑100次把能成功的或者效果最好的一次拿出来show一下...然后另一方面, 各种应用的创业/创意大赛拉开了序幕, 又有一些恍惚到1998/1999年的时候各种网页制作大赛. 而今天换成了AI应用大赛.

最近一直在想一个问题, AI产生的利润和商业模式的根源在哪? 在高铁上想了一下,大概有这样一个脉络.

1. 从互联网应用谈起

从互联网的兴起, 给了人们更加便捷的获取信息的渠道, 从静态网页的黄页再到搜索引擎的繁荣, 从E-mail到BBS再到各种聊天室/聊天软件, 这是互联网早期的雏形. 它加速了信息获取的速度. 然后没过几年海量的信息存在于互联网上, 逐渐在搜索的基础上出现了推荐系统, 伴生了广告业务变现. 一定程度上出现了简单的信息过滤. 然后再是移动互联网以及各种业务结合物理世界, 电商/中介/外卖/网约车等产业的成熟.

以传统的视角来看, AI实实在在能赚钱的业务无非就是搜广推和量化交易

推荐系统在信息过载时期提供的信息匹配价值就越来越大, 但另一方面基于千人千面和单向推送的方式出现了瓶颈, 而这个瓶颈就是人自身的思考和下次点击的时间, 于是出现了多个App争抢用户留存时间的情况, 同时用户的喜好反馈和需求并没有很好的和推荐系统深度的融合, 还是以弱交互的单向推送为主... 而很多App在召回的多样性和产品的精确搜索上也存在两难的境地, 特别是对一些大的平台...

本质是我们可以理解推荐系统是一个串行的同步执行的系统. 推荐列表---用户反馈---推荐列表...

2. AI应用的付费意愿: 钱换时间的逻辑

AI应用能不能赚钱实质是衡量用户的增量付费意愿, 本质上还是一个钱换时间逻辑, 新应用的诞生通常需要在效率上一个数量级以上的提升. 另一方面还有一个规模效应的问题, 通过规模降低运营成本. 在这两个约束下来构成AI应用的商业模式.

实际的时间压缩的逻辑就变成了高并发的异步执行系统, 无论是vibe coding或者是各种Agentic的应用, 实质是以更多的资源并以异步的方式来交付产物, 例如Manus和Fellou这样的应用.

在此基础上, 并行的异步化的Agent执行构成了一个新的交互界面. 商业逻辑的变化也因此需要从这个点上逐渐展开讨论.

从人的视角来看, 更直白的一种描述就是对于一个传统的每天需要8小时完成的工作, 由Agent执行能够10分钟完成, 并且人再辅助花费30分钟的时间做一些细微的调节和判断, 那么人本身就可以同时兼职多份工作, 例如兼职工作收入为5000元每月, 那么实际上是有月付费1000元以上的可能性的. 而另一方面, 也只有效率有一个数量级的提升才会有这样的机会, 否则为什么不多雇佣点人呢?

3. AI应用对基础设施的需求

3.1 传统互联网应用端需求

对于一些已有的互联网应用, 在Agent的调用下整个系统的吞吐需求潜在的也会提高一个数量级, 伴随着的就是中间件/数据库/缓存等在线链路需要增加一个数量级的容量. 不过由于异步执行的调用, 无需因为人的感知对于长尾延迟的约束相对降低一些, 但无论如何在线链路上的性能提升和可扩展性以及对密集I/O的需求会显著提高.

3.2 Multi-Agent执行的需求

UCB前段时间有一篇论文《Why Do Multi-Agent LLM Systems Fail?》[1]

首先是指令和系统架构存在缺陷时, 会出现Specification Issue, 导致Agent误解任务或者违反一些约束. 然后是Agent之间的沟通存在问题, 破坏了整个workflow, 浪费了宝贵的计算资源. 最后是多Agent系统过早结束或者任务的结果未被充分的验证, 导致结果不正确或者不完整.

前段时间有一篇文章写过一些《一个关于AI编程/Agent的讨论》, 面对Multi-Agent执行的成功率问题, 执行任务指令本身又具有明显的声明式特征, 基于函数编程的代码更接近自然语言描述. 模型自身的训练上针对Agent可能需要在函数式编程上进一步强化. 这也进一步存在了一个问题: AutoRegression based的模型,针对多个Agent的执行结果拼接下, KVCache的组织如何构建? DeepSeek NSA这一类 block based Attention或许是一个方向, 或者更进一步一些Diffusion LLM的出现, 将一些Agent结果进一步抽象到一个更高维度的Latent Space来构建一些高阶范畴.

微软最近也发布了一个报告《Taxonomy of Failure Mode in Agentic AI Systems》[2] 谈到一些安全的问题

其实个人的观点是现在的Agentic flow和互联网早期的CGI类似, 虽然有了一定的执行能力,但是在安全上还是存在很多问题, 那么一些安全沙箱进行的安全隔离是必须要有的.

3.3 Agent Online Learning

LLM逐渐会在Agent执行的过程中, 逐渐走向Online Learning的模式, 逐渐将知识内化和允许模型自主探索并学习, 同时更加适合每个人的个人习惯和风格. 也就是Sutton最近谈的进入了一个经验时代.

本质上会从利用人类数据的大集中大集群的训练会走向更加分布式/分散化的任务上的持续学习. 类似于推荐系统的大量的Embedding Table又会以某种更简单的方式作为模型执行的Context/Experience被引入.

3.4 结果交付

实际上以web页或者视频的方式交付可阅读的结果, 前者对于代码生成能力的要求更高, 后者或许要更晚一些才能成熟, 和现在的视频生成主要用于美工/艺术创作领域不同的是, 这个场景更多的是生成报告的视频解读.

4. 基础设施的变化

基础设施更多的是考虑从系统架构上增加ROI, 降低系统瓶颈. 即整个系统满足SLA要求时,需要考虑如何低成本交付服务。

一方面在单卡性能限制时,需要考虑采用更加紧耦合的方式来获取更高的性价比和可扩展能力. 从计算网络存储的视角来看, 现阶段还是相当割裂的三张网络

当前GPU作为CPU的附属以二等公民的形式存在,GPU异构互联存在三套网络相对松散耦合的组网方式,在这种架构中,存储数据需要通过VPC网络和CPU,并经过PCIe总线搬运到GPU上。同时GPU的跨机通信也需要通过PCIe和RDMA技术连接。数据在三个网络中的通信搬移成本较高。

实质性的问题是三者之间的融合构成Composable Disaggregation架构. 但是并不是NVLink那样的紧耦合的ScaleUP架构, 而是以数据为中心的架构如何组建? 以内存/文件的抽象机制如何在机内总线和机间总线传递的问题.

另一方面是大量的Agent执行时的资源复用/租户隔离/数据安全等需求下的极致的弹性和高售卖率装箱问题.

这两个问题要怎么解呢....你猜~~~~

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询