我要投稿

粮厂研究员Will | 小米miclaw发布：谈谈为什么豆包手机没有撑过72小时？

发布日期：2026-03-09 12:56:03 浏览次数： 2951

作者：粮厂研究员Will

微信搜一搜，关注“粮厂研究员Will”

小米今天发布了一个叫 Xiaomi miclaw 的产品，同时开启邀请制封测。没有发布会，没有大规模宣传，但消息传出后，小米股价盘中一度上涨逾6%。

Xiaomi miclaw 的定位是移动端 Agent，它是一个深度嵌入小米手机操作系统底层的 AI 助手。不同于以往那种只能回答问题的对话框：

它能真正帮你把事情做完。理解你的意图之后，它会调用手机里的各种系统能力，自主完成从发短信、管日历、控制家里的智能设备，到跨平台比较信息、串联多步操作的复杂任务。底层是小米自研的 MiMo 大模型，以系统应用的身份运行，拥有50多个系统级工具的调用权限，并支持接入米家平台超过十亿台IoT设备。

如果你把 miclaw 只看成一个手机助手的迭代，你会错过它真正的意义。它是小米整个 AI 战略在消费端的第一次系统级落地，是 MiMo 大模型从实验室走进用户口袋的那一步，也是小米用来回答一个更大问题的答案：在 AI 重塑消费电子的时代，谁有资格成为用户生活的入口？

要理解这个答案，我们需要往前倒推，从一个被低估的决策说起。

MiMo：那个被低估的战略转折

小米最早的 AI 路线是聚焦端侧 AI 和小模型。说白了，就是用 AI 来优化单点功能：拍照更好看，语音识别更准，省电策略更智能。这套思路没有错，但它的天花板很低。

真正的转折大约发生在 2024 年底。小米正式启动万卡 GPU 集群的搭建计划，大规模押注通用大语言模型的自主研发。这支团队以 Core 为内部代号，雷军亲自主导方向。据界面报道，团队成立时已有约 6500 卡 GPU 资源，万卡规模是持续扩建的目标。这个决定，在当时并不显眼，但现在看来，是整个 AI 战略的基础设施决策。

2025年4月，MiMo-7B 发布。这是小米第一个开源大语言模型，7B 参数，专注推理能力。发布时的 benchmark 数据相当亮眼——数学推理和代码生成超越了 OpenAI o1-mini 和阿里 QwQ-32B-Preview。

2025年12月，罗福莉亲自发布了MiMo-V2-Flash 。这一次规模直接跳跃到 309B 参数，采用 MoE（混合专家）架构，每次推理只激活 15B 参数，推理速度达到每秒 150 个 token，是多数竞品的三倍，API 成本只要每百万输入 token 0.1 美元。性能对标 DeepSeek V3.2。

从 7B 到 309B（未来还会有万亿参数的大模型），从纯推理模型到 agentic 任务模型，这条路走了不到一年。

为什么我说这个转折被低估？

因为如果没有 MiMo，就没有 Miloco，也没有 miclaw。两者都是以 MiMo 作为底层大脑构建的。

一个消费电子公司选择自研通用大模型，意味着它在押注一件事：AI 不是可以外采的零部件，而是必须自己掌握的核心能力。这个判断，和雷军500亿/10年的芯片投入逻辑一模一样——关键技术必须握在自己手里。

AI矩阵：软硬一体的三个战场

理解了 MiMo 之后，再看小米过去半年发布的几个产品，就会发现它们不是独立的，而是同一套逻辑的不同展开。

小米的消费电子方法论，我把它总结为软硬结合、AI赋能 —— 用 AI 来提升所有核心品类的体验和竞争力，而不是在某一个品类上押注 AI。所以我们看到的是三条战线同时推进。

第一条战线是智能手机，对应的就是今天发布的 miclaw。手机是距离用户最近的数字设备。miclaw 以系统应用身份运行，拥有 50 多个系统级工具的调用权限，支持多轮推理-执行闭环。它要做的不是让手机更好用，而是让手机真正能替你做事。

第一条战线是智能家居，对应的是去年11月发布的 Xiaomi Miloco。它的底层是专门为家居场景优化的视觉-语言多模态模型，支持本地运行，连接米家平台超过十亿台设备。它的核心突破是摆脱了传统智能家居规则预设的模式——AI 根据当前上下文实时判断该做什么，而不是执行事先写好的触发条件。

第三条战线是电动汽车，小米 SU7 和 YU7 搭载的自动驾驶系统和 HyperOS是 AI 在行车场景的延伸。SU7 的辅助驾驶能力在过去一年获得大幅升级，YU7 在2026年1月成为中国市场最畅销车型——这直接说明了软硬整合在 EV 赛道上的竞争价值。

而这三条战线的终点，指向同一个地方：人形机器人。小米工厂里正在跑的人形机器人，用的是 VLA（视觉-语言-行动）模型加强化学习，感知-推理-行动的闭环架构，和 miclaw、Miloco 的底层逻辑是同源的。手机、家居、汽车，都是在用软件体来训练和验证这套 AI 系统。等这些验证成熟，装进一个有手有脚的机械躯体，就是机器人。这不是比喻，是字面意义上的技术路径。

豆包手机之败：软硬分离的必然结局

在谈 miclaw 到底做了什么之前，我想先把豆包手机的故事讲清楚。因为这两个产品代表了两条完全不同的路线，而后者的失败，恰恰是理解前者价值的最好注脚。

2025年12月1日，字节跳动联合中兴通讯旗下的努比亚，发布了搭载豆包手机助手的nubia M153。

这款手机的核心卖点是：将豆包 AI 助手嵌入手机底层，赋予其一项通常只有操作系统本身才拥有的高级系统权限。用通俗的话说，就是让 AI 可以像真人一样直接操控手机屏幕——看懂当前界面上显示的内容，然后模拟手指的点击、滑动、文字输入，从而跨越不同的 App 完成任务。帮你在三个外卖平台同时比价下单，帮你自动完成繁琐的跨应用操作。

产品一经发布，科技圈和资本市场都沸腾了。首批三万台备货被抢光，中兴股价数度涨停。

然后，现实在72小时内泼了冷水。微信率先封杀，用户登录时收到登录环境异常提示，强制下线。紧接着是淘宝、拼多多、支付宝、美团，以及农行、建行的手机银行 App。几乎所有头部超级 App，在同一时间段，用同一套理由——安全风控——对豆包手机实施了精准拦截。

2025年12月5日，字节被迫发公告，主动暂停豆包在金融、支付、游戏刷分等高敏感场景的 AI 操作能力。

这不是技术边界问题，是入口之战。字节做的事，是试图把自己的 AI 变成用户与所有 App 之间的新中间层。腾讯、阿里当然不会允许这种事发生。

但豆包手机还有一个更根本的问题，是字节的结构性困境：它没有自己的手机。它的系统级权限是借来的，是努比亚在硬件层面让渡给它的，而不是天然属于它的。借来的权限，随时可以被收回、被限制、被绕过。

我之前在微博上说过：所有消费电子产品的终局一定是软硬一体的，任何所谓形式的赋能或者合作，都只能获得暂时的优势。

豆包手机是这句话最生动的注脚。字节是软件巨头，努比亚是硬件厂商，双方的合作从第一天起就充满了权限边界、品牌协同、利益分配的博弈。这让我想到吉利和百度合资造车的故事——一家硬件巨头和一家软件巨头，各自带着自己的基因和利益诉求，最终产出的是一家几乎在市场上销声匿迹的合资公司。软硬分离的合作，本质上是在别人的地盘上建房子，地基从来不是你的。

miclaw 为什么能做到豆包做不到的事

miclaw 和豆包手机助手，表面上都是 AI 手机助手，但技术路线是完全不同的两件事。

豆包的方式是通过视觉识别屏幕内容，然后模拟人类的点击和滑动来操作各个 App，本质上是冒充用户在操作。这种方式的脆弱性在于，它无法绕过 App 自身的风控系统，一旦被识别为非正常操作，直接封禁。

miclaw 的方式是系统应用身份。它不是第三方软件，它以操作系统的一部分身份运行，拥有 50 多个原生系统工具的 API 级调用能力。它不需要模拟用户点击，因为它本来就有权直接调用系统能力。

这个差异，决定了两者完全不同的命运。

当 miclaw 帮你完成一个任务，比如收到购票成功的短信后，自动帮你调整日历、静音手机、通知联系人，它调用的是系统底层的 API，整个流程是结构化的参数传递和结果回传，而不是模拟人类在屏幕上盲点。超级 App 的风控系统针对的是异常操作行为，而 miclaw 的操作在系统层面是完全合法的——因为小米就是这部手机的制造者。

miclaw 技术文章里有一句话说得很准：运行在应用沙箱内的 AI，无论模型多强，主要能做的事就是回答问题和联网搜索。系统级 AI 不一样，它能提供系统级的操控。这个区别，是软硬一体和软硬分离之间不可跨越的鸿沟。

除了权限之外，miclaw 还有另一个豆包无法复制的资产：米家生态。

米家平台连接了超过十亿台设备。miclaw 实现了完整的米家协议客户端，可以读取设备状态、发送控制指令，理论上能控制用户授权范围内的所有 IoT 设备。豆包手机能做到吗？永远不行。因为那是小米的生态，不是字节的。

数据主权同样如此。miclaw 的设计哲学是：对话历史、用户配置、技能文件全部存在本地，云端只在推理时传输当前对话内容，且全程加密。这不只是隐私保护的表态，更是在宣示：这些数据，属于用户，也属于小米生态，不会流向任何第三方。

因此，我之前的第二个判断是：AI 的商业价值不在于绝对的技术领先，而是应用场景的落地。生态入口和用户数据在哪里，AI 时代的伟大公司就在哪里。

超级 App 封杀豆包手机，恰恰是在捍卫这个判断的逆命题——它们知道，一旦失去对用户路径的掌控，就失去了 AI 时代最重要的生产资料。而小米，在手机这个品类上，天然就是那个掌控者。

小米的独特性：中国为数不多的全栈玩家

我想花一些篇幅说说小米在这个竞争格局里的独特位置，因为这件事常常被低估。

在中国，能同时在消费硬件、通用大模型、系统级 AI 整合三个维度同步发力，且背后有超大硬件生态和庞大用户基础的公司，小米几乎是独一份。

华为的硬件能力毋庸置疑，盘古大模型也在持续迭代，但受制裁影响，芯片供应链和海外市场扩张都有天花板。字节的 Doubao 模型是中国 MAU 最高的 AI 助手，但没有自己的硬件生态，注定只能做平台层。阿里有 Qwen 系列模型，也有天猫精灵，但在消费硬件上始终是配角。

再往外看，苹果是全球软硬一体的标杆，但 Apple Intelligence 的进展出乎意料地迟缓，在中国市场更是受到数据本地化合规的掣肘。这个窗口期，对小米而言是真实的机遇。

雷军在今年两会提交的提案里，重点谈了人形机器人在智能制造中的应用。这不是一个孤立的政策表态，而是整个战略版图的组成部分。

XRing 芯片每年迭代、MiMo 大模型持续升级、Miloco 管全屋、miclaw 管手机、自动驾驶管汽车、人形机器人管工厂。这些加在一起，是小米在用一种系统性的方式构建 AI 时代的护城河。

消费电子历史上从来没有哪家公司同时在如此多的品类上押注 AI 的系统级整合。苹果做到了软硬一体，但 AI 能力滞后；谷歌有模型能力，但没有硬件生态；三星有硬件，但没有自研大模型。小米的位置，在这个行业格局里，是相当独特的存在。

风险与挑战

写到这里，我也谈谈miclaw让我保持谨慎的地方。

首先是超级 App 的反制迟早会来。miclaw 今天能以系统应用身份绕过风控，不代表微信、淘宝永远不会找到应对方式。更可能的剧本是：这些超级 App 会主动推出受控的 API 开放框架，以合规接入替代被动调用——表面上是合作，实际上是对调用行为的重新管控。小米和超级 App 之间的博弈，不会就此终结。

其次是稳定性问题短期内是真实的用户障碍。文章自己承认，高复杂度任务可能存在执行效率波动或阶段性失败。消费者对 AI 助手的容忍度，远低于对普通功能的容忍度。一次失败的操作，特别是涉及支付、通讯、重要日程的失败，足以让用户彻底放弃。这不是技术问题，是产品信任的建立问题，需要时间。

第三是隐私、伦理与监管的不确定性。系统级 AI 读取短信、日历、联系人、银行账单，这种数据触及深度，在监管层面的定义尚未清晰。中国的数据安全法、个人信息保护法对 AI 系统的处理要求仍在动态演进。小米目前的设计是本地存储优先，这是正确方向，但监管的靴子什么时候落下，以什么形式落下，仍是变量。

这些风险不足以否定 miclaw 的战略价值，但足以提醒我们，从一个封测产品到真正的市场规模，中间还有相当长的路要走。

结尾

miclaw 技术文章的最后一句话，我反复读了几遍：当大模型真正长进手机系统里，手机本身就变成了 AI 的身体的一部分。

这句话的分量，比它听起来要重得多。AI 过去几年的叙事，主要停留在会说话的层面——模型越来越大，回答越来越准，对话越来越流畅。但消费者最终需要的不是一个聪明的对话框，而是一个能替他们把事情做完的助手。从会说话到会动手，是 AI 从工具跃迁为助手的关键一步。

miclaw 在手机上迈出了这一步，Miloco 在家居里迈出了这一步，小米的人形机器人在工厂里迈出了这一步。它们的底层逻辑是一致的：感知-推理-行动，闭环执行，越用越懂你。执行介质不同 —— 一个在数字世界动手，一个在物理世界动手—— 但驱动它们的，是同一套以 MiMo 为核心的 AI 基础设施。

再强调一遍，生态入口和用户数据在哪里，AI 时代的伟大公司就在哪里。豆包手机的故事，是这句话的反证。miclaw 的故事，是它的正证。

小米把生态和数据都握在手里了。接下来的问题是执行 —— 产品能不能真正可靠，用户能不能真正信任，系统能不能真正闭环。这些问题的答案，不在封测邀请里，在接下来一两年的市场表现里。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业