我要投稿

AI Coding：模型，成本，应用，整合，未来

发布日期：2025-09-29 09:40:16 浏览次数： 1697

作者：数字游牧日常

微信搜一搜，关注“数字游牧日常”

当我想到再要去写这个题目的时候，本能的习惯会上来：框架思考，材料准备，反复斟酌。但是这个问题，明明在过去一年的时间里我写了很多了。那些我想着要好好计划，精雕细琢的目标，都没实现，那些突然冒出的话题，虽然散乱，但慢慢的却积攒了起来，既帮助自己理清了思路，又像日志一样积累在了那里。

所以，我还是沿着放飞的思路，当然尽可能保持理性客观。

时间回到2023年上半年，我甚至很逆天的在线下交流里抛出了下面的“怪论”

那时候，我还在使用VS Code，安装了Cursor插件，当我敲下一个函数，它就能自动补全代码，而且代码恰恰是我想要的时候，我脑子里产生了这样的怪论，另一个“怪论”是：AI只要搞定代码，就是搞定了AGI。

也在那个时间点，Github Coplilot推出了预览版本，我不仅装了插件，还付了订阅费。但是，很快就取消了，彻底转向了Cursor，不仅仅是插件，而是整个Cursor IDE，很短一段的过渡时间后，我就再也没打开过VS Code。

如今，Cursor依然是我每日时长最长的工具，尽管大量代码工作已经由Claude Code完成，但我还是更喜欢在Cursor的终端窗口里使用Claude Code，因为IDE给了我更好的代码浏览的体验。如果像我这一代非常习惯于使用VIM编辑代码的程序员都更喜欢IDE的体验，还有谁不会呢？

言归正传，两年多过去了，AI Coding已经成为了当下最火的赛道，没有之一，巨量推理成本的需求绝大多数都由其推动，更是当下给出最好的ARR曲线的AI应用赛道。

当然，当初那些发布时很惊艳的产品，例如vercel v0，bolt.new，基本已很少被提及，cursor当年最大的竞争者windsurf在经历了一波三折的被收购历程后，也物是人非了。

经历过过去十几年移动互联网浪潮的分析师们，很容易将如今的状况跟当初任何一个互联网垂直领域去比较。

然而，背后的逻辑和走向却可能完全不同。尤其是，当投资人还秉持着一个大赛道必然会出现一家新的伟大公司的理念之时。

因为，AI Coding的驱动力只有一个：模型。但是它能够持续运营的条件又非常复杂，因为它从一开始就要考量收入与成本，它的用户有限，超长时长，但没什么黏性。

是的，驱动这一轮AI Coding（也被叫做Vibe Coding，氛围编程）的唯一事件性拐点是，Claude-3.5的发布，而让它快速爆发的推动力，则是，Agentic AI（注意，不是Agent，是模型在强化学习阶段就训练了如何使用工具，而不是在模型之上写所谓的Agent，Agent不是这次的话题，以后可以再详细讨论）。

Cursor在早期通过两个方式吸引了一批用户，包括我在内，一个是上面说的“自动补全”功能，另一个是直接在ide的边栏可以跟模型对话，提出代码修改意见，或者生成一些代码，用户接受后，还可以直接在真实代码里直接完成改动。这种不用离开IDE的丝滑体验，是前所未有的。

当然，还有一个非常非常重要的原因，在AI普遍定价为20美金一个月的时代，Cursor不仅可以有不小的免费使用额度，20美金订阅后，更是无限量调用底层模型。互联网时代的“免费”模式当然能获客，尤其是token费越来越贵的时代。

于是，我们看到了一个快速迭代的过程，24年下半年，它可以生成“漂亮”的交互式网页，今年年初时，已经可以生成一些简单的网站，年中时可以生成内容较丰富的网站，如今，前后端可以同时完成，只要算力足够，用户足够有经验，复杂系统看起来也毫无压力。在我过去的文章，vercel站点上，还留存着随着时间推移的边界性实验。我能清晰的看到在一个完整的想法中，它从可以走几步到走完八十步以上的“进化过程”。

这背后，自然有Cursor团队的巨大努力，但是真正的驱动力，还是模型，从Claude-3.5，到3.7到4，到如今的4.1，和Gemini从1.5到2到2.5的巨大飞跃。

当然，Cursor团队的巨大贡献是，在过去的时间里，他们总是能在现有模型的基础上超越模型一步提出用户体验更好的解决方案，为模型公司提供了方向：如果不是Cursor在function call的基础上加入更多的Agent概念，Claude和Gemini团队可能没这么快落地“Agentic AI”的概念，没这么快把“工具使用”作为非常重要的强化学习训练阶段任务。

所以，这提出了第一个有价值的问题，Cursor有巨大商业价值吗？当然，但是围绕Windsurf前段时间的“肥皂剧”可能对这个问题回答的更为清晰：Windsurf的价值只是它的少数几个核心人员。

当Meta因为Llama4的失败疯狂挖人，Google Deepmind“天价”招揽Windsurf联合创始人时，他们看的很清楚，连模型的价值都只是少数关键人，何况AI应用呢？

让那些DAU、MAU、ARP，都进入历史的垃圾堆吧！模型能力远远大于所谓“商业模式”。

此时，我正在决定取消Cursor月度订阅的边缘，因为它反复变化的定价策略，因为对底层“Agentic AI”模型越来越高的依赖：如果最终我都要为token按量付费，为什么不直接付给模型商？

于是，进入到第二个问题，甚至也是决定应用生死的因素：成本。

显然，这是又一个与“互联网思维”完全不同的考量。我们习惯了“羊毛出在猪身上”，习惯了“流量经济”（包括我此时在做的事情，尽管更多出于兴趣，早就算过了，像我这么严肃认证的写文章的，每天只能吃得起一个肉包子），习惯了“免费获客”，成本是获客成本，因为潜在收入是“单用户变现价值”，比如广告变现，金融变现……

AI呢？或者，AI Coding呢？收入就是用户愿意付出的费用，无论是订阅费，还是token费，成本呢？你当然还可以说“获客成本”，但是具体一点，就是token的推理费用，作为Cursor这样的应用，是付给模型公司的钱，按token使用量计费，作为模型公司，是计算包含硬件折旧、电费、运营维护在内的综合成本，当然也可以算成token的推理综合成本。

成本本身是一个非常复杂的问题，一会儿单独简单讨论一下。

但是，很明显，对于类似于Cursor这样的应用公司而言，所谓“商业模式”就完全不同了，你可以说他们是在跟用户“对赌”，赌用户的平均付费金额高于平均成本，你也可以说整体上看他们就是收一个一个服务费，或者说中介费，将大模型中介给用户的介绍费。

服务费，外卖平台，网约车平台，都号称收的是这个费用。但是用户不同，互联网平台做的是C-C之间的信息撮合，商家和消费者，司机和乘客，都是“弱势”的C，只能看着被平台“吃两头”。Cursor只有一头的用户，另一头是模型服务方，Cursor还是它们的客户，所以，Cursor这样的公司其实连中间商都不是。

这也是现在Cursor面临的最大问题，用户使用的越多，它亏的越多，只能不断调整收费策略来平衡成本与收入，但是这又得罪了“薅羊毛”而来的用户（题外话，有时候觉得做个行业第二挺好的，windsurf创始人轻轻松松套现，当然苦的是那些中底层员工，我不敢臆想Cursor最终的命运，但是可能对于里面很多人而言，前景并不会太妙）。

实际上，成本因素的大头是在模型公司本身。可能在很长一段时间里，模型都需要不断进步来满足越来越多的场景和需求，无论大家担心多少安全和社会影响风险，都很难让这股推动的力量停下来。

过去一年里，很多人还产生过一种“幻觉”：我们可以用更低的成本获得更好的模型。显然，Claude，Gemini，GPT-5如今的状态，已经打破了这种“幻觉”：我们或许可以用一个更低的成本获得一个落后的模型，但是这没什么意义，因为要实现领先的模型，总是需要付出更多的成本。

算法上，这么多年不断的努力，我们也无法把一个排序算法的最小复杂度从NlogN再降低量级。换到模型上，就是我们也无法通过数量级下降的努力（算力开销）获得同等质量的结果。

当然，还是那个前提，是在模型依然需要很长时间迭代和进步的当下及未来。

这些意味着什么？意味着在同等质量下，谁的模型在部署下拥有更低的token成本，谁就有更大的优势。成本计算的问题过于复杂，这里就是简化成基础设施、硬件、软件和路由策略。

基础设施，大概就是比谁的数据中心租金更便宜，电费更便宜，水费更便宜，碳税更低。其中，电费和水费基本上就是对推理成本影响最大的因素。当然，考虑到如今越来越多的数据中心其实都是由基础设施开发商和服务商统一建设后再租给云厂商，这一块的地区差异有，但是云厂商之间的成本差异越来越小。

硬件，其实就是算力芯片，抛去所有复杂的计算，就是三个部分，购置成本，推理性能，能耗。先说后两个，其实就是换算到单token需要的能耗，客观而言，在如今封装基本都是台积的情况下，单die或者单芯片的差别不会大太多。但是到一个集群就不同了，NV的Blackwell其实单die的能力提升很有限，如果算上功耗，可能跟H系列比差别都不太大，但是它可以按照NVL18，36或者72，甚至144的方式组合，以并行的方式大幅提升计算效率，NVL系列当然首先用来做训练，但是一旦部署量上来了，散热问题稳定解决了，在推理上带来的提升会可怕的多。当然，Blackwell还支持FP4精度，这也可以算是硬件上的提升，基本概念就是大概至少95%性能的基础上成本降低一半。

购置成本，其实如今只有Google自己的TPU是有巨大优势的，同时，因为Google自己的组网技术，可以获得更好的性能与能耗的比。这自然也是Microsoft，Amazon，Meta对自研芯片趋之若鹜的原因。但要达到Google的水平，时间短不了，毕竟Google的TPU已经发展到第七代了。这还不是一个简单的把芯片生产出来的问题，还涉及到非常复杂的集群部署，组网，优化。

当你成本比别人显著的低，你就可以对用户更慷慨，很显然，这是目前Gemini和Claude之间的巨大区别：Claude可能必须得时刻保持模型至少在coding方面的领先才可以不断向前发展，Google甚至可以经受得起未来Gemini在一年之内的相对落后。

软件或者算法层面，我想，包括我在内的很多没有参与模型开发的人都会在上半年被某公司的所谓推理的最佳实践误导，以为，软件和算法层面优化可以提升很多很多的性能。这个结论也对，也不对，对我们这些行业外的人而言是对的，但是对于前沿模型公司，根本不成立，前沿模型公司早就在工程上做到了“极致”，否则怎么可能训练的出如此规模之大的模型，所以那些给出的所谓技术方案，更多只是行业里不公开的秘密，还都不是领先的。

换句话说，在这些所谓算法上的优化，模型公司差别都不太大的。这跟训练阶段呈现出的结论都差不多，能力差不多的领先模型，数据量、算力开销可能都是差不多的。没什么独特的“黑科技”。要说有，就是资源禀赋。

软件层面最大的改进只在两个方面，一是精度（这个还跟硬件有关），显然FP4比FP8在绝大多数场景下效率就是要更高。第二是，Cache，或者直接一点KV Cache。日常使用者其实不太了解，当然也很容易忽略这个问题，我的简化解释，也存在很多错漏的地方。我可以用几张截图简单说一下。

第一张是Claude的定价：可以看到中间散列，都跟Cache有关，定价显著低了。

第二张是我的Cursor用量统计，当然，我已经在这个月的前几天就用光了一个月的额度，如今，每天虽然还可以“蹭”一点，但是很不稳定，如果写到一半，停了，结果很可怕。

第三张是某一次Gemini Cli调用我的Open Research流程后的开销情况。

其实，这里面有几个概念需要先说一下的：

1.实际上，随着AI应用的深入，输入token的数量是远远高于输出token的数量的，想想，无论是搜索，还是修改代码，自然都是在输入模型，而模型需要产出的结果，量相对就不大了；

2.在深度使用中，Cache的命中率是非常高的，搜索和研究类的可以占到50%以上，代码类的可能超过80%，甚至我是超过90%的，这里面还有一个原因：实际上，Claude一次代码的成功率并不高的；

3.输出token是最贵的，写cache也贵，但是读cache便宜很多。

于是，显然，对于模型方而言，Cache策略就是最重要的成本控制方法，甚至，越是深度用户和深度应用，Cache命中率越高，大胆推测，是不是就到某一个点，超过99%情况下，不管用户怎么使用，模型服务方都不会亏钱了。我相信这个拐点是存在的。

甚至，理论上，如果再好好的优化KV Cache，是不是还有可能做到不同用户不同会话之间共享Cache，反正，搜索业务是这么干的，我相信，模型也可以，甚至，是不是已经做到了。

作为一篇公众号文章而言，花在成本描述上的笔墨有点多了，简单而言，最核心的三点，芯片成本（当然也可以对应到能耗），组网技术（这两点很多时候还有结合），Cache策略优化。

这大概也是我以前一直在说的“自有模型+自有算力+生态”的根本原因，因为只有这样，优化才是最彻底的，综合成本才是最低的，毕竟，AI时代，我认为比的就是模型能力差不多的前提下谁推理成本更低。

已经超过五千字了。

关于应用的话题，其实结论也很清晰且一贯：我一直认为AI时代，模型公司和生态公司是可以把应用基本上全部做完的，它们不再是平台，而是直达用户的核心。大概，Cursor这样的公司，最终避免不了被收购的命运给吧。

下一个话题，整合。来自于微软放弃Github独立运营承诺，而希望将其整合进业务板块的新闻。

Github在行业里的地位太高了，如果还有一家可以比肩的话，那就是如今的Hugging Face，它不仅仅是一个开源社区的概念，而是整个程序员为核心的生态的基础，更是AI生态的核心基础。

微软不可以也很难把Github高度融合进自己的业务板块，这个后果比Oracle收购Sun后慢慢的把Java和MySQL商业化还严重。

但是，微软又必须这么干，尤其是当Github Copilot的最新用户数超过两千万的时候。它不可以放弃掉AI时代最具价值的用户。

这一年多来，可能我最大的想法上的改变，就是，我很确信这件事情在未来很糟糕的时候，也承认，在或许一两年的短期里，对微软是好的。微软的根基在企业客户，企业客户的核心是企业里那些真正位于一线的用户，这是一个对未来格局会产生深远影响的变化趋势。微软必须将AI Coding这样的能力深度整合到自己的办公生态里，否则，它就会面临Google、Anthropic的夹击，和OpenAI的“背刺”。

未来，其实，未来谁说的准呢？我只是会愿意去相信：“程序员”的世界会越来越美妙，我们每天都能实时感受到来自底层模型能力的进步，每天都有无穷无尽的想法等着去实现，以前我们靠与人合作，如今，我们可以越来越多的尽情享受与AI共处的时光。

这不是Vibe Coding，这是另一种创造。我希望我可以越来越纯粹，纯粹到Cursor好的时候就说它好，不好的时候就说它不好，纯粹到不需要去讲一堆废话逻辑去讨论商业价值，纯粹到管它什么“互联网思维”还是“AI思维”，纯粹到，此时此刻，我们可以做什么，想要做什么。

6,100字，结束。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业