微信扫码
添加专属顾问
我要投稿
AI落地进程中,基础架构需求如何演变?本文深入探讨AI应用落地对Infra的影响及商业模式变革。 核心内容: 1. AI应用落地的执行模式转变:由同步到异步 2. AI应用的商业模式与付费意愿分析 3. 从互联网应用到AI应用的演进脉络
AI应用落地的实质是由人参与的同步执行, 转化为更高并发的异步执行
...人开始向机器寻求洞察力。这种洞察力体现在由机器以数据为中心的计算模式,这种模式并不是简单的去处理数据,而最大的变革是要从数据中抽取能够产生决策的代码.
最近和一些朋友都在聊这个话题, 虽然现在看上去应用逐渐繁荣起来了, 但是还存在一些问题. 例如Agent的执行成功率, 大模型本身的代码理解能力等, 有些Demo也就是跑100次把能成功的或者效果最好的一次拿出来show一下...然后另一方面, 各种应用的创业/创意大赛拉开了序幕, 又有一些恍惚到1998/1999年的时候各种网页制作大赛. 而今天换成了AI应用大赛.
最近一直在想一个问题, AI产生的利润和商业模式的根源在哪? 在高铁上想了一下,大概有这样一个脉络.
从互联网的兴起, 给了人们更加便捷的获取信息的渠道, 从静态网页的黄页再到搜索引擎的繁荣, 从E-mail到BBS再到各种聊天室/聊天软件, 这是互联网早期的雏形. 它加速了信息获取的速度. 然后没过几年海量的信息存在于互联网上, 逐渐在搜索的基础上出现了推荐系统, 伴生了广告业务变现. 一定程度上出现了简单的信息过滤. 然后再是移动互联网以及各种业务结合物理世界, 电商/中介/外卖/网约车等产业的成熟.
以传统的视角来看, AI实实在在能赚钱的业务无非就是搜广推和量化交易
推荐系统在信息过载时期提供的信息匹配价值就越来越大, 但另一方面基于千人千面和单向推送的方式出现了瓶颈, 而这个瓶颈就是人自身的思考和下次点击的时间, 于是出现了多个App争抢用户留存时间的情况, 同时用户的喜好反馈和需求并没有很好的和推荐系统深度的融合, 还是以弱交互的单向推送为主... 而很多App在召回的多样性和产品的精确搜索上也存在两难的境地, 特别是对一些大的平台...
本质是我们可以理解推荐系统是一个串行的同步执行
的系统. 推荐列表---用户反馈---推荐列表...
AI应用能不能赚钱实质是衡量用户的增量付费意愿, 本质上还是一个钱换时间逻辑, 新应用的诞生通常需要在效率上一个数量级以上的提升. 另一方面还有一个规模效应的问题, 通过规模降低运营成本. 在这两个约束下来构成AI应用的商业模式.
实际的时间压缩的逻辑就变成了高并发的异步执行
系统, 无论是vibe coding或者是各种Agentic的应用, 实质是以更多的资源并以异步的方式来交付产物, 例如Manus和Fellou这样的应用.
在此基础上, 并行的异步化的Agent执行构成了一个新的交互界面. 商业逻辑的变化也因此需要从这个点上逐渐展开讨论.
从人的视角来看, 更直白的一种描述就是对于一个传统的每天需要8小时完成的工作, 由Agent执行能够10分钟完成, 并且人再辅助花费30分钟的时间做一些细微的调节和判断, 那么人本身就可以同时兼职多份工作, 例如兼职工作收入为5000元每月, 那么实际上是有月付费1000元以上的可能性的. 而另一方面, 也只有效率有一个数量级的提升才会有这样的机会, 否则为什么不多雇佣点人呢?
对于一些已有的互联网应用, 在Agent的调用下整个系统的吞吐需求潜在的也会提高一个数量级, 伴随着的就是中间件/数据库/缓存等在线链路需要增加一个数量级的容量. 不过由于异步执行的调用, 无需因为人的感知对于长尾延迟的约束相对降低一些, 但无论如何在线链路上的性能提升和可扩展性以及对密集I/O的需求会显著提高.
UCB前段时间有一篇论文《Why Do Multi-Agent LLM Systems Fail?》[1]
首先是指令和系统架构存在缺陷时, 会出现Specification Issue, 导致Agent误解任务或者违反一些约束. 然后是Agent之间的沟通存在问题, 破坏了整个workflow, 浪费了宝贵的计算资源. 最后是多Agent系统过早结束或者任务的结果未被充分的验证, 导致结果不正确或者不完整.
前段时间有一篇文章写过一些《一个关于AI编程/Agent的讨论》, 面对Multi-Agent执行的成功率问题, 执行任务指令本身又具有明显的声明式特征, 基于函数编程的代码更接近自然语言描述. 模型自身的训练上针对Agent可能需要在函数式编程上进一步强化. 这也进一步存在了一个问题: AutoRegression based的模型,针对多个Agent的执行结果拼接下, KVCache的组织如何构建? DeepSeek NSA这一类 block based Attention或许是一个方向, 或者更进一步一些Diffusion LLM的出现, 将一些Agent结果进一步抽象到一个更高维度的Latent Space来构建一些高阶范畴.
微软最近也发布了一个报告《Taxonomy of Failure Mode in Agentic AI Systems》[2] 谈到一些安全的问题
其实个人的观点是现在的Agentic flow和互联网早期的CGI类似, 虽然有了一定的执行能力,但是在安全上还是存在很多问题, 那么一些安全沙箱进行的安全隔离是必须要有的.
LLM逐渐会在Agent执行的过程中, 逐渐走向Online Learning的模式, 逐渐将知识内化和允许模型自主探索并学习, 同时更加适合每个人的个人习惯和风格. 也就是Sutton最近谈的进入了一个经验时代.
本质上会从利用人类数据的大集中大集群的训练会走向更加分布式/分散化的任务上的持续学习. 类似于推荐系统的大量的Embedding Table又会以某种更简单的方式作为模型执行的Context/Experience被引入.
实际上以web页或者视频的方式交付可阅读的结果, 前者对于代码生成能力的要求更高, 后者或许要更晚一些才能成熟, 和现在的视频生成主要用于美工/艺术创作领域不同的是, 这个场景更多的是生成报告的视频解读.
基础设施更多的是考虑从系统架构上增加ROI, 降低系统瓶颈. 即整个系统满足SLA要求时,需要考虑如何低成本交付服务。
一方面在单卡性能限制时,需要考虑采用更加紧耦合的方式来获取更高的性价比和可扩展能力. 从计算网络存储的视角来看, 现阶段还是相当割裂的三张网络
当前GPU作为CPU的附属以二等公民的形式存在,GPU异构互联存在三套网络相对松散耦合的组网方式,在这种架构中,存储数据需要通过VPC网络和CPU,并经过PCIe总线搬运到GPU上。同时GPU的跨机通信也需要通过PCIe和RDMA技术连接。数据在三个网络中的通信搬移成本较高。
实质性的问题是三者之间的融合构成Composable Disaggregation架构. 但是并不是NVLink那样的紧耦合的ScaleUP架构, 而是以数据为中心的架构如何组建? 以内存/文件的抽象机制如何在机内总线和机间总线传递的问题.
另一方面是大量的Agent执行时的资源复用/租户隔离/数据安全等需求下的极致的弹性和高售卖率装箱问题.
这两个问题要怎么解呢....你猜~~~~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-06
2024-09-04
2025-01-25
2024-10-30
2024-09-26
2024-09-03
2025-03-12
2024-12-11
2025-02-18
2025-03-06
2025-06-08
2025-06-08
2025-05-27
2025-05-24
2025-05-23
2025-05-22
2025-05-21
2025-05-21