免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


对话 OPPO AI 姜昱辰:手机才是 Memory 最好的土壤,AI 一定会彻底改变智能手机

发布日期:2025-10-15 22:11:59 浏览次数: 1522
作者:Founder Park

微信搜一搜,关注“Founder Park”

推荐语

OPPO AI负责人姜昱辰深度解读:为什么手机才是AI记忆系统的最佳载体,以及AI将如何重塑智能手机体验。

核心内容:
1. 手机作为AI记忆系统最佳载体的独特优势
2. OPPO小布记忆产品的设计与升级路径
3. AI手机未来发展的三大关键方向

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

如果长期关注最前沿的 AI 产品,你很难避开一个念头:这产品是给人用的吗?

它们 AI Native 得像毛坯房,全是想象空间。看起来门庭若市,实际上注册即流失。最后不辞而别、戛然而止,像烂尾楼。

我们行业喜欢这样的产品,有创新,有勇气,敢于「颠覆 xx」或者「做 AI 版 xx」。

只是十几亿网民从来没听过这些产品。

一个有意思的现象是,AI 行业在讨论谁在牌桌上的时候,很少提到手机厂商。

手机厂商相对慢一些,尤其对于那些拥有上亿用户的主流手机品牌,不顾一切的创新和颠覆,并不是他们做事的方式。

在行业蒙眼狂奔,不断追求产品形态突破的时候,手机厂商是慢的。但行业的发展逐渐需要一些慢功夫,比如 Context 和 Memory,比如 personal data 的积累,手机似乎是现阶段最好的载体。

我们长期与手机厂商保持着交流,因为他们很重要,他们掌握着这个时代最重要的入口,个人计算设备。

这次带来的是与其中一家主流厂商 OPPO 的交流。他们在今年 4 月发布了小布记忆,一款围绕 Memory 构建的产品,并在 10 月 15 日发布的 ColorOS 16 中升级了这款产品。

如何面向超过 1 亿用户开发 AI 产品?好的记忆系统如何实现和评估?加上 AI 的手机正在发生哪些变化?未来会具备哪些新的能力?我们与 OPPO ColorOS 智慧产品研发总监姜昱辰聊了这些问题。

在加入 OPPO 之前,姜昱辰是一名 AI 创业者。本科浙大,博士在苏黎世联邦理工大学研究 NLP。2023 年回国创业,成立波形智能,主力产品「蛙蛙写作」将长文本生成应用于小说写作领域。2024 年 10 月,波形智能被 OPPO 收购,姜昱辰也开启了一段全新的体验。

以下是我们与姜昱辰的对话内容,经 Founder Park 编辑整理。

采访 - 艾之

编辑 - Nico


超 15000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群: 
图片
进群后,你有机会得到:
  • 最新、最值得关注的 AI 新品资讯; 

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道



01 

看得更清楚点,

什么是真正的 AI 手机?

艾之:有一个词大家看到很多次,AI 手机,你对它的理解是什么?

姜昱辰:以前大家理解的「AI 手机」更多停留在概念上,用户会觉得手机系统自带一些 AI 修图、AI 写邮件,这些功能可能很有用,但是单点的,套了一个「AI 手机」的概念,其实缺乏完整的体系构建。

我们对于「AI 手机」的思考,在 2024 年底的时候逐渐深刻和立体。到今天,我们整体的思考比较清晰了,我们认为一个个人化的 AI OS,一个完全服务你个人的超级助理,就是 AI 手机。

当然助理这个词不太好,伙伴 companion 更好一些。AI 很多时候认知水平比人强的,在和用户拥有同样 Context 的情况下,它可能更容易帮你做决策,或者从旁观者的角度提供一些 insight。

从「AI 手机」出发,其中有一个很关键的命题,用户的手机里有非常大量的、长期的个人数据,这些数据能给用户提供怎样的价值?

数据的获取、存储处理以及应用,就是感知、记忆和个性化。我们一直在思考,感知和个性化的关系是什么?记忆与个性化有什么关系?

感知是 always-on 的,在用户授权范围内,始终捕捉设备和用户的动态。AI 需要在合适的时间把合适的服务提供给用户,这就是感知与推荐的关系。比如当你到家的时候,手机推荐一些放松的音乐,或者手机知道你第二天有采访,前一天就把相关资料弹出来提醒你。「个性化」是主动的,它基于你的本地数据,构成对你的了解,为你提供贴心的服务。

我是从记忆出发,逐渐拓展到感知和推荐,在一个动态的过程中定义技术和产品的价值。

艾之:AIOS,想做系统的人真的太多了,做模型的想做,做手机的想做,做 Agent 的也想做。

姜昱辰:对,所有人都能看到,有资源的人都想做,大家的 vision 是一致的。一个拥有连续不断的上下文,能够随时为用户提供贴心服务的 AI,就注定会成为一个 OS。

不过你回到第一性想,人的时间是有限的,一周除去睡觉,大概 120 个小时。你在哪里花的时间最长,哪里就会成为你的 OS,因为它承担了信息服务分发的工作。之前这个 OS 毫无疑问就是手机 OS,应用商店和各种 App,把你需要的所有服务都呈现在你面前。

通用 Agent 想要获取用户最完整的、全天候的 Context,一定会朝着 OS 的方向演进,甚至激进一点,软硬一体,要具备长时间为用户提供服务的能力,有足够自然、智能的交互界面,还要有自己的生态。

那硬件公司也想啊,他们会往通用 Agent 的方向演进。我们对于个性化的 AI OS 的最终期待,就是一个通用的 personalized agent。

这两条路径会逼近同一件事,但因为行业还在「超级早期」,很难说哪条路径一定是对的。


02 

年轻或不年轻,

我们都变成了金鱼

艾之:记忆是这次 OPPO 发布的核心 AI 功能之一。聊聊这个功能背后的故事,最开始为什么要做小布记忆?

姜昱辰:也是经历了很多哈哈。加入 OPPO 之前,我就跟 Pete(刘作虎)讨论过,我想做 Super Memo,超级备忘录,但当时我思考的出发点还是发挥手机的个人数据优势。

加入以后我发现,OPPO 内部已经有一群产品经理在酝酿一个叫「记忆大师」的项目,也就是现在的「小布记忆」。

在当时,这是一个非常强的行业共识。我们并不是第一个发布 AI 记忆的手机厂商,但我们花了更多时间思考和打磨。

手机的 AI 记忆这件事,行业里主要有两种方向。

  1. 情感化,它会尽可能记录你手机里的一切信息,感知你、构建你的画像,然后提供极强的情绪价值;

  2. 字段化,把记忆做成一些刚需、高频信息的收集器,比如地址、身份证号码等信息。

这两个方案我们都考虑了,然后,一个都没选。我们最终把小布记忆做成了一个「碎片化信息的收纳师」,跨系统的收藏夹。这可能与 OPPO 做产品的风格有关系,还是要找到真的能让用户用起来、能解决问题的点。

图:小布记忆 App 界面

艾之:为什么不做那两个方向?

姜昱辰:情感化的方向,就是不够刚需,你讲不清楚啊,用户为啥需要这个东西?不是说 AI 和记忆对手机很重要,所以就要做这个功能,做功能还是给用户做的。

字段化那个方向,我也琢磨了挺久,看起来很刚需很痛,但问题是,卡证这些只是基础功能,要做,但不应该是重点。

所以我们的思考还是回到一个更原点的问题上:一个 AI 手机,能给用户解决什么问题?

就算智能手机已经十几年了,用户还是存在很多痛点,这些痛点客观存在,但技术不成熟的时候,我们无法解决。还有一些痛点,可能不适合手机本身去解决,你要是找错了点,用户就直接来吐槽,「你们做这个干嘛,我为什么不用 ChatGPT/小红书......? 」

功能上线之前,我压力特别大,心里没谱啊。因为当时行业里已经有友商发布了记忆功能,但没有太多的水花,虽然说产品不一样,但反而更担心记忆到底能不能做好。最后发布,看到用户反馈,还是挺超预期的,友商对我们的功能也有所跟进,进一步验证了这个方向。

艾之:(笑)最积极的反馈永远是友商给的。从需求角度说,为什么手机做记忆是重要的?

姜昱辰:之前看过一个研究,说我们现在平均每天通过手机接收的信息量高达 80G,是一个世纪以前人的 20 倍。

每个人的大脑都在接受碎片化信息的轰炸、裹挟。大家或多或少都变成了「金鱼脑」:有一些很简单的信息,明明看过,但是过目就忘;看过很多《五分钟练出马甲线》,但是真的做操的时候还是找不到;要出去旅游了,旅游攻略看了一堆,做起来非常痛苦;月末吃土了,却不知道钱花在哪了。而且这些信息和数据,还分散在不同的 App 里。

这些其实特别适合手机去解决,因为我们每天 70% 的信息可能都是通过手机接收的,AI 又有很强大的信息处理能力和聚合能力,对于这些爆量的碎片化信息,简直是大杀器。

艾之: 其实「收藏」这个需求一直没有被很好解决,但又是用户天然的心理诉求,收藏了就等于看完了。很早的时候 Evernote 还为此开发了一个剪藏插件,收藏后来也成了知识类、笔记类产品的标配。

姜昱辰:(笑)是的,稍后再读,等于永远不读。

但「记忆」和「笔记」是两类不同的产品。笔记的核心是作为创作工具,所以它的编辑体验一定要好。收藏最本质的价值还是它的一种快速记录的方式,而在「记」这个层面,一是记录没有那么随心,二是记录下一堆东西后,其实很难用好。

当我们开始做「记忆」这个产品的时候,就发现这里其实存在一个价值漏斗。

比如记住公众号文章,用户旅程的第一层价值就是「摘要」,所以我们在这上面花精力,让你按那一下就感到价值。只有这样,你才会愿意按很多下。这是漏斗的第一层。

记下来的东西,自动帮你归纳到 AI 合集里,这是第二层价值,归纳整理的价值。

再然后,可以跟你进行问答共创,把它作为你的顾问,这是第三层,认知增强的价值。

所以,一条记忆,它在不同阶段能发挥不同的价值。但这在 AI 之前,是不可能实现的。


03 

摘要是最简单的功能,

也是最难满足的需求

艾之:从小布记忆第一次发布到现在,差不多有半年时间了。在这六个月里,产品做了哪些迭代?

姜昱辰:今年 4 月发布,到现在整体已经大变样了。之前的版本,主要是满足基础的收藏诉求。到了这一代,我们在各种细节上,都做了很多优化。总结来说,就是记得「更广、更深、更有用」。

更广:支持更多的模态记忆。比如,我们新增了「随口记」和「视频记」。之前的视频记,只能把视频的单帧画面做总结,现在我们可以把整个视频的内容进行总结。之前也不支持语音记录,现在随口记解决了这个问题。

图:小布记忆「视频记」对视频内容的总结

更深:摘要的质量有了很大提升。这是我们默默在做的事情。以前的摘要很短,大概就是给你备忘一下。现在的摘要,某种程度上甚至可以替代一部分阅读的需求。我自己看公众号,如果不想读了,就按一下,然后到小布记忆里读摘要,因为它浓缩了信息。

更有用:以前,它只是一个「记忆收纳师」。到今天,我们可以说它慢慢有了「第二大脑」的形态。在计算层面,我们可以帮你自动归类合集。归类之后,你可以基于它做记忆问答。比如你可以说「把我收藏的英语单词全部整理成一张表,每天给我出 5 个题。」你也可以对它进行外向探索,比如问「基于我这个礼拜读的这些人工智能文章,你觉得最近 AI 的发展趋势是怎样的?」,你可以跟它进行超越记忆收纳的认知共创。

我们这次还发了一个「记忆推荐」的功能。比如你收藏了一个成都的餐厅,等你落地成都时,它就会提醒你。可以看到,我们在尝试让它变得更主动。

艾之:「第二大脑」这个词其实有点被用烂了,大家都说要成为用户的「第二大脑」。内部对这四个字有没有做过更精准的定义?

姜昱辰:确实有点被用烂了,但你会发现,被用烂的背后,其实代表了一种共识。

我们解构一下,为什么大家喜欢用「第二大脑」这个词?还有一个词叫「外挂大脑」。因为我们的第一大脑比较懒,而且容量有限。所以我们需要第二大脑来帮助我们。帮助我们什么呢?

第一,帮助你记住更多的东西。它的容量更大,而且不会遗忘。就像我们这次做的吉尼斯世界纪录认证,就是战胜了「最强大脑」,它的记忆力是远远超过人类的。所以第一层,是它的记忆力更好。

第二,是它的认知力更好。我今天作为一个人,觉得自己认知力还可以,但事实上,大模型在某些方面比我更渊博。它的难点在于,它没有和我共享上下文,没有我过去的经历,没有我工作环境的这些上下文输入。所以,想让它提升认知力,上下文很重要。

在我看来,「第二大脑」主要就是这两点:记忆力和认知力。

艾之:深度的部分,你说摘要,这好像是个最简单的 AI 功能

姜昱辰:任何 AI 产品都有「摘要」功能,但把它做好其实挺难的,本质上是信息的浓缩和提取,每个用户、不同场景对于「摘要」的需求是完全不一样的。我们不可能把通话摘要的模型用在一键闪记上。在这个方向上,我们算法和产品同事花了非常多的精力。

比如,我今天在大众点评上按一下,我想要的是餐厅的地址、电话等信息;我在一个行业峰会的邀请函上按一下,我想要的是从早到晚的日程;我在一张表格上按一下,我是想把表格信息提取出来;我在公众号文章上按一下,才是想要一个概览。

摘要的颗粒度要掌握得很好,不能太短也不能太长。我看一个视频,可能想要的是带时间轴的摘要。用户在不同场景下的诉求截然不同。

所以,虽然叫摘要,但背后做的事情是,要理解不同场景下的用户需求,并且把它翻译成大模型能听得懂的语言。我们不仅仅做了摘要模块,还做了意图分流,去理解用户的意图。这一块的迭代是非常大的。

艾之:基于系统去做摘要,需要做全域的覆盖,意味着多模态、多媒介、跨 App,数据处理的维度会非常不一样。那如何去 evaluate 这个功能做得好不好?

姜昱辰:Eval 是非常重要的,并且是会持续重要下去的话题。

这一块想要做好非常有挑战,核心是因为它本质是用户意图的对齐问题,意图不一样,想要的东西就不一样。所以我认为它不是一个纯技术问题,而是一个产品和技术复合的问题。

我们现在的北极星指标是「人均记忆条数」,它反映了用户有没有用,有没有持续用。在这个大指标下,我们会看用户的满意度,记忆有没有用,在不同场景下,用户的满意度是怎样的。把「用户满意度」这个结果指标,拆解成一系列的过程指标。比如在用户使用大众点评这类 App 时,用户期望的是什么?我们会从信息完整度、事实准确度等几个维度去评测它的质量,比如餐厅电话号码,可别给我漏记了或者记错了。在公众号场景,我们可能更关注冗余度。

所以,这个过程非常依赖于产品的定义。产品经理既要懂用户需求,也要懂大模型的语言,懂算法技术的语言,才能把这个意图翻译的工作做好。

艾之:你们后来发现,用户用它记的最多的是什么?和最初想象的一样吗?

姜昱辰:哈哈哈,不太一样。大家记了蛮多奇奇怪怪的东西。我们办过「股东大会」,把高频用户请到办公室,问问他们都在记些什么,非常有意思。

有一个医学生用户,他就记了非常多的医学题目。还有一个用户,他是做保险行业的,他有很多单据需要进行报销,每次就记一下报销单据,把这个功能当记账本来用。还有用户在考驾照,他把驾校宝典里做错的题目,一道道记下来,做错一道就按一下,一天记了几百条。

再讲我一个投资人朋友,还挺典型的。他建了两个合集,第一个是「约了要见面的创始人」,第二个是「刚融到资的公司」。第一个是日程管理,他在微信里约好创始人见面,就按一下记下来,把日程管起来了。第二个是资讯管理,今天看到哪家公司融资了,就记一下。

另外,还比较多的是用来收集抖音、B 站的视频。


04 

记住是结果,

不是用户的目的

艾之:基于 Chatbot 形态来做 Memory,和基于手机系统来做 Memory,有很大的区别吗?

姜昱辰:从框架角度来说,不会有特别大的区别。但具体的实现难度上,手机系统肯定远远高于 Chatbot 。

你想一下,Chatbot 的 Memory 来源,不管怎样都是非常单一和统一化的,就是聊天记录,模态非常统一。所以它思考的范围就小很多。

但手机系统不一样,它的数据模态非常多,数据量、规模、异质性和噪声都远远高于一个 Chatbot 系统。所以做手机 Memory 的复杂度,无论是工程还是算法层面,都比 Chatbot 要高好几个量级。

举一个具体点的例子,在做手机系统的 Memory 时,我们会特别重视「挖掘」。因为手机系统里有大量的东西其实是不需要成为 Memory 的一部分的,我们怎么从这些「垃圾」中挖掘出有用的东西,就变得非常重要。但对于一个 Chatbot 系统,你其实不用特别考虑挖掘,更多考虑的是如何把聊天记录沉淀下来,被后续使用。它更多是去实现超长上下文。

艾之:这两类产品实现 Memory 的切入点似乎也不太一样。比如 ChatGPT,它是在与你聊天的过程中,非常无感地形成了 Memory。你在某一次聊天时突然发现,它好像真的记得一些事。但你们是从让用户「主动记录」这件事开始入手的。

姜昱辰:是的,从大的角度来说,我们做 Memory 的出发点是明确的,就是希望能基于用户的个人数据,让手机变得更个性化。但具体到做产品时,我们还是要回答一个核心问题:在什么场景,为什么样的用户,创造什么样的价值?

回答这个问题时,我们就会思考,做什么样的功能,用户才会愿意把他的有效上下文给我们?我总不能跟用户说,「你来捐献你的记忆吧,这样系统就能更懂你了」。

艾之:记住是结果,不是用户的目的。公众号摘要那个功能很有意思,现在我记住某篇文章,其实是为了看一下摘要,「记住」反而是其次的。

姜昱辰:对,这类功能在我们内部叫「闪记惊喜感」,我们要在用户使用产品的最短路径上就让 ta 感受到价值。

比如「一键闪记」,你记下的东西,可以马上问出来;一个两小时的视频,当下就给用户总结出来。

如果「记」只是为了「记下」,这个价值拉力是不够强的。但是,你按那一下,我给你提供了摘要,这个价值就很大。再比如取餐码,你按一下,我就可以把它钉在流体云上,这个价值拉力也很大。并且解决了用户面对大量碎片化信息的痛点。

只有回答了刚刚说的那个核心问题,它才是一个有产品市场契合度、有生命力的产品。

艾之:现在小布记忆只是记录用户主动按键抓取的内容,未来还会在输入侧做哪些扩展?

姜昱辰:一定会扩展,最终要做到「全时感知物理世界,全域拟合数字世界」。

现在 AI 意图搜索的数据来源就不只是闪记的数据,还包括你的相册、备忘录等,所有的一方应用(即 OPPO 自己的应用)都是打通的,这些都可以被搜索出来。

从输入端来看,现在我们有的闪记数据,是你数字世界中感兴趣的东西。我们还有手机本机的数据,是你沉淀下来的一些生活记录,比如相册里的生活片段。

除此之外,还有物理世界的信息。比如,我今天和你聊天,我们讲的一些话,这些信息其实也很重要。当然,物理世界的信息某种程度上也会通过漏斗,沉淀到我们的相册里、备忘录里,比如我拿起手机录了一段视频。但物理世界的信息量远远大于我们现在沉淀到手机里的。

艾之:那手机里其他的第三方应用的数据呢,未来会打通么?

姜昱辰:肯定是一个方向,手机 App 的数据不可能在没有用户授权的情况下打通,所以我们也在积极推进智能体生态的建设,我们现在和支付宝在 Agent 方面有一个合作,未来应该会引入更多的伙伴加入进来。我们希望用户的体验可以简单到只有一个 Memory,然后这个 Memory 可以去赋能很多的应用程序和 Agent。但这可能需要一个过程。

艾之:那 Memory 的能力未来可能会分发给其他的设备吗?

姜昱辰:设备我觉得可能分两类,一类是采集设备,就是 Input 端,它帮助我们丰富 Context。另一类是 Output 端,要思考的是如何用好 AI。

我们认为 Memory 应该是可以「即插即拔」的,能跟着用户走的。我今天从 A 手机换成了 B 手机,它能跟着用户走,而不只是基于某部手机的,所以它应该是用户全天候的 Context 的建立。未来我觉得应该是多设备协同共同构建一个用户完整的 Context 和使用 Context 的网络。


05 

和 Memory 纠缠的好多年

艾之:你对 Memory 的研究大概是从什么时候开始的?对这件事的理解经历了什么样的变化?

姜昱辰:其实在读博期间就在做 Memory 相关的研究。当时研究的方向是长文本生成。我们最早有一篇论文叫《RecurrentGPT》,核心思路就是怎么样让上下文变成是可以被更新的,从而可以去承载无限长的上下文、无限长的内容,进而实现无限长的文本生成。其中一个应用场景就是长篇小说写作。

后来我们做「蛙蛙写作」时,又做了 LPA(Life-long Personalized AI)。因为我们发现,上下文变长后,不同作者的文风是完全不一样的,通过 RAG 可以解决一部分问题,但在这之上,模型还需要了解每个创作者这个「人」,也就是他们的 Persona,才能做出更好的个性化文风。

LPA 其实是 RecurrentGPT 一个自然的延伸,就是把 Memory 的形态更丰富化了。之前只有长期记忆(Long-term Memory)和短期记忆(Short-term Memory),并且长期记忆做的也只是纯文本(Plain Text),是非结构化的。后来,从长期记忆中提炼出了 Persona(用户画像),并且去思考这个 Persona 如何在 Decoding 中发挥价值。

到了 OPPO 以后,就更专注于这次发布的「记忆共生引擎 PersonaX」。之所以叫「共生」,是因为我们希望这个 Memory 可以和用户是「共成长」的。这次我们同时在长期记忆上做了更强的结构化、分层化的处理。如果和之前的 LPA 那个阶段的工作相比,一些不同是:

  • 从模态的角度来说,也从纯文本转向了多模态。最早的 RecurrentGPT 是纯文本的,而 Persona X 可以赋能相册中的自然语言搜索,可以搜索照片和不同模态的数据。

  • 从复杂度的角度来说,从单一的写作场景的应用走向了更复杂的 OS 系统。

  • 但底层上来看,这些工作都是一脉相承的:如何丰富一个用户的 Memory,以及,如何把用户的 Memory 变成大语言模型的 Context。

艾之:现在整个行业对于记忆的研究,哪些议题是已经收敛的?哪些是还在积极探索的?

姜昱辰:在 Memory 这条研究线上,全行业投入的研究工作还是蛮多的。在目前这个时间点,大家对于 Memory 如何分层已经比较有共识了,比如姚顺宇(ex-OpenAI)的 CoALA、Mem0(YC s24 项目)等等。

同时大家也基本共识了记忆应该是可遗忘的、可更新的。但如何实现,技术选型上还没有收敛,因为这跟如何分类、存储记忆也是息息相关的,涉及到多模态信息挖掘。这其实也是我们这次发布的记忆共生引擎的一个关键点,我们特别考虑了遗忘和更新的机制。

记忆检索这块也相对收敛,Embedding、Reranking 这套大家相对比较一致,但多模态信息的检索效果以及 Query 的精准意图识别能力有一定差异。我们在记忆搜索这块,在文本类做到了 F1 (F1-score,准召率指标)90%,在自然语言图搜上做到了 F1 60%,远远超过了行业平均水平,但是还是不够,离完全满足用户需求还差很多,这也是我们花比较大精力关注的,特别是视频模态的检索。

比较非共识的应该是记忆如何「用起来」。OpenAI 的 Pulse 其实是我个人觉得在所有最近的这些更新发布中最值得关注的。Memory 存储了用户偏好、行为习惯等数据,使 Pulse 能基于个性化的 Context 生成精准推送内容。例如素食者会自动收到餐厅筛选建议,形成「越用越懂用户」的正循环。

另一个还没有收敛的议题是,模型在解码阶段对记忆增强的特殊优化和适配,也是行业比较关注的一点,如 Meta 最近发的 REFRAG,提升了 RAG 解码效率,这一块也还没有收敛的技术方案,我们也做了一定的探索。

艾之:虽然你刚刚说大家对于记忆如何分层是有共识的,但我发现大家对于记忆具体如何分类、记忆的结构应该是什么样子的,还是会有一些不同的思考角度和实现方式,是这样吗?

姜昱辰:对,是会有不同。但我觉得大的框架其实还是蛮有共识的。比如我们都会区分程序性记忆、短期记忆、长期记忆。

程序性记忆,你也可以叫它「肌肉记忆」,它实际上存在于模型的参数里,或者是 Agent 代码中的记忆,你不用思考,依靠习惯就能反应过来。

再说短期记忆和长期记忆,比如我们现在在聊天,前面讲过的问题你脑子里大概都记得,但过几天可能就忘了,只会沉淀下一些精华和亮点。这些沉淀下来的东西就成了长期记忆。

这个「短时-长时」的结构,我觉得大家是有共识的,基本上所有记忆系统的设计,都是这么划分的。但具体怎么实现,或者再往下细分,就不是那么有共识了。

比如短期记忆里,有人会把聊天记录全部看作是短期记忆,然后把它再细分成情景记忆和工作记忆。

长期记忆也是,最简单的就是把所有东西都沉淀成一个很长的非结构化数据。也有人把长期记忆作为一个外挂知识库,这在 NLP 中一直都有。还有些长期记忆是基于图谱的,有些是纯文本的。

因为应用场景不同,会有非常不同的形态,有不同的设计和选择。我们现在思考的更多的是,作为一个通用的 Memory 框架,我们应该如何去支持这些不同的形态。

艾之:关于如何构建一个好的记忆动态更新和遗忘的机制,还没有形成完全的共识,这里的难点是什么?

姜昱辰:在我看来,难点还是在于对用户需求的建模。它同样不是一个纯技术问题。你该遗忘什么,不该遗忘什么,这个问题需要先定义清楚。我认为,问题的定义是最重要的。它还没形成共识的主要原因,还是因为大家对这一块没有想清楚。

另外,它一定是场景驱动的。我在什么样的场景下,需要什么样的遗忘机制?在更通用的场景下,我们又该如何构建它?你可以认为这叫问题定义,也可以叫评估,它们是相辅相成的。我比较认同这样一个观点:在现在这个时代,问题定义可能远比你实现的方法更重要。

我稍微展开一下,在「记忆」这件事上,有几个环节很重要:

  • 记忆表征:第一步,你怎么去表示记忆。

  • 记忆更新:表征之后,记忆如何被更新和遗忘。

  • 记忆检索:如何把记忆检索出来,这是最基础的应用。

  • 记忆应用:记忆怎么被用好?比如用在后项推荐里,或者把信息处理后推送给你,这也是一种应用。

  • 记忆增强解码:模型在解码阶段对记忆进行特殊优化和适配,这更偏模型层,为了让它更快、更省空间。

在这五大块里,你前面问的「记忆更新与遗忘」,是更偏向「问题定义」导向的。而最后一块「记忆增强解码」,则更偏性能导向。


06 

你有答案了吗?

艾之:用户的隐私问题,你们是如何处理的?

姜昱辰:在端侧,我们有隐私沙箱,把你的数据和计算都放在一个沙箱环境里进行,这是安卓的一项技术,也是我们 OS 安全团队做的。在云侧,我们有 PCC(私有计算云),用户的数据传输也是加密的。所以即使是 OPPO,我们也没有办法看到你的数据。

作为一个手机公司,Privacy 必须非常严格。当然,从反方面来说,这也给我们的工作带来了一些挑战,比如我们想去做大数据分析就很难,因为我们对用户隐私的保障要求更高。

艾之:那模型侧是如何使用用户数据的?

姜昱辰:数据是脱敏的。我们给到模型的只是一个查询 Query,中间通过我们的服务器做了一层脱敏,它并不知道这个查询是哪台手机发过来的,它也没办法通过这个查询来重构出你是什么样的人。

另外,我们在安全规范上也做了不少工作。比如,像密码这类信息,我们是绝对不会上传到云端的。我们会先用马赛克打掉,再转发给模型,等模型返回结果后,再在端侧解密,把你的密码填上去。所以你不用担心,使用我们的 AI 意图搜索时,你的密码会被传给大模型,这是不会的。

我们内部有很多这样的防火墙机制。但安全这件事始终是在红蓝博弈的进程中不断迭代升级的,这是我们认为最重要的事情之一。

艾之:你前面提到 AI 会作为旁观者给用户 insight。这个方向上有做怎样的探索?

姜昱辰:这是一个高阶需求,我们有一个叫「洞见」的功能,做的就是类似的事情。

它背后其实就是 Mining。从你的记忆中挖掘出你是一个什么样的人,从另一个角度来解析你。其实现在小布记忆已经可以做到一些类似的功能了。

我自己有 1000 多条记忆。有一天晚上,我睡不着,就开始和小布聊天,我问它「我是个什么样的人?」它回答说有创业精神、有产品思维等等。

然后我就让它猜「我是做什么职业的」。我完全没有记过任何和我职业信息有关的记忆,结果它深度思考一番之后说,我可能是科技公司中负责产品创新或技术战略的资深从业者。

那天晚上我自己是感到非常哇塞!这还是在我们没有做特别特化版本的情况下。

当然,我们在这方面其实做了更多、更深的工作,比如如何系统性地为你建模。但我们的做法也不是特别工程化地去定义,更多还是依赖于模型的涌现能力来做这件事。

艾之:从「第二大脑」到「超级助理」,还需要一些什么样的能力升级?

姜昱辰:最重要的是 Proactive (主动)。

小布记忆最重要的四个价值点:轻松记、方便管、随心搜、主动推。

我们在「主动推」上还没有完全发力。接下来,Proactive 是我们的一个比较大的重点。我们在构建个人上下文上,已经做到了相对比较极致的水平。下一步,就是让它进化成一个更主动的产品,能随时随刻感知你的需求,并且为你提供个性化的资讯和服务。

这点上 OpenAI 在引领行业往前走,比如最近发的 Pulse,它意味着 ChatGPT 开始摆脱(虽然还没有完全摆脱)「要用的时候才打开」的工具属性。类比搜索引擎时代转向推荐引擎时代,势必会在用户粘性、使用频率、使用时长等都会带来大幅提升。

艾之:那这和上一代的推荐算法、推荐引擎最核心的不同是什么?

姜昱辰:上一代的「主动推」,是推荐你可能感兴趣的原子信息,精准度有限,更多是基于协同过滤、基于大数据的。

而 AI 时代的「主动推」,是 AI 消化完、咀嚼完,直接为你创造出一个量身定制的解决方案、信息简报,是完全基于你意图的「个性化的信息聚合」,它更多是基于生成式的。

艾之:「推」之前的三件事,「记、管、搜」这几个部分算是已经做得差不多了吗?

姜昱辰:还有很多提升空间,特别是「搜」。我觉得在「搜」上,我们还有非常大的提升空间,这也是我个人投入精力比较多的地方。

从行业角度看,我们在搜索上确实是领先的。我们的 F1-score(准召率指标)比行业平均水平高很多。但是,它离真正满足用户需求还差得很远。比如,现在在我们相册里搜「我跟艾之的照片」,可能就找不出来,因为它不知道艾之是谁。或者你说「我上次跟某某去看旅行团演唱会的那个尖叫瞬间」,它也找不出来,因为它对视频内容的理解能力还不够,不知道哪一段片段是「尖叫」。

所以,这就是我为什么说 F1-score 和用户实际满意度是两个指标。F1-score 高,只是在我们定义的范围内高了,但用户的使用边界远远超过定义的范围。对于用户来说,最朴素的需求往往最重要。搜索做得好,我们能服务的场景就会变多,很多体验才能做好,是很重要的基础。

艾之:最后一个问题,这两年我看了很多 AI 硬件,大家多多少少都想干掉手机。你觉得手机会被新的硬件替代吗?

姜昱辰:这是我们都会思考的一个问题。

其实更重要的一个问题是,你如何定义手机?今天我们说的手机,是 iPhone 开启的智能手机,在这之前,有黑莓、诺基亚,有小灵通、大哥大。

回看历史,你会发现同样是手机,最开始它只有打电话的功能,然后发送信息,再之后黑莓、诺基亚可以上网,直到乔布斯重新发明了手机,一台电话、一部 iPod、一个互联网浏览器,手机变成了 personal device,变成了人和外部世界社交和信息的第一入口。

那么 AI 时代会发生什么?「手机」为用户提供的功能价值和情绪价值会发生什么变化?

我个人能给出的答案是,今天这个形态的手机一定会被淘汰,但「手机」一定会进化,我们一定会看到再一次「重新定义手机」的时刻。

挺有意思的,AI 还有很多未知,很多悬而未决的问题。在这个时刻参与新的人机交互形态的探索,是一件有趣且令人兴奋的事。回答这个问题的人,可能不只是手机厂商里做产品的搞技术的,最重要的是,用户的答案是什么?

图片
更多阅读

硅谷一线创业者内部研讨:为什么只有 5%的 AI Agent 落地成功,他们做对了什么?

AI 创业最大的问题,不是 FOMO,而是没想清楚

谁在赚钱,谁爱花钱,谁是草台班子,2025 年度最全面的 AI 报告

为什么 OpenAI 们都要搞 AI 基建?Groq 创始人把背后的逻辑讲透了

转载原创文章请添加微信:founderparker

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询