免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

对话离哲:企业AI告别「对话玩具」,多模态记忆是分水岭

发布日期:2026-02-10 14:48:24 浏览次数: 1526
作者:雷峰网

微信搜一搜,关注“雷峰网”

推荐语

企业AI正从"对话玩具"升级为"业务伙伴",多模态记忆平台将成为这场变革的关键基础设施。

核心内容:
1. 企业AI发展的三个阶段与当前面临的转型分水岭
2. 多模态记忆平台如何解决企业生产场景中的复杂决策问题
3. 质变科技MemoryLake产品的创新理念与行业价值

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

初见离哲(本名占超群,质变科技创始人兼CEO)时,他习惯性地用双手比划,仿佛在将空气中无形的碎片聚拢、串联。人的记忆是碎片的,他说,而无数碎片化的知识,就像无数溪流汇成湖。这形象地解释了质变科技核心产品记忆湖(MemoryLake的由来,也指向了当前企业AI升级中最关键的挑战与机遇。


如今,企业AI正面临一个分水岭:一边是仅能处理对话的智能玩具;另一边,则有望成为能持续理解、学习并给出行动级决策的业务伙伴。二者的本质区别,并不完全取决于模型本身的大小,而在于AI是否拥有一个能够理解、串联并推理现实世界复杂信息的能力——多模态记忆


并非简单的功能叠加,而是一次认知范式革命:它要求AI单纯处理会话场景,转向理解企业生产场景中由文本、表格、音视频、工作流交织而成的连续决策轨迹。离哲与他的团队,正致力于通过MemoryLake,成为这场静默革命的关键构建者。


作为前阿里研究员,如今质变科技的CEO,离哲为何选择记忆这条未来可能竞争激烈的赛道?(AI 行业还有哪些发展新动向?背后又有哪些不为人知的行业故事?雷峰网 AI PM 十人谈正持续推进中,欢迎添加作者微信:GO-GO-ZEPPELI,交流信息,分享认知。)

以下是雷峰网和离哲的对话,作者进行了不改变原意的编辑整理:


01

记忆碎片,汇聚成湖(MemoryLake)

雷峰网:您为什么会想去做记忆这件事?


离哲:这与 AI 行业的发展趋势有关。我们可以把这一轮的 AI 发展分成三个阶段:


第一个阶段就是 2024年之前,大家更多的感受是 AI 能体会到价值,能连接到企业,所以大家会选择做向量数据库,做知识库。它要解决进入企业、跨过企业生产价值的第一道门槛。因为很多东西是没有太多生产效率提升的,比如问答,所以进入企业的第一件事情,就是通过向量数据库大模型和数据之间连接起第一道桥梁。虽然这道桥梁离生产还非常远,但它确实解决了第一阶段的问题,让 AI 和数据能连起来。


期间,我们发现这里面的发展空间很大。一方面,数据不只是一个向量表征;另一方面,人的知识是分隐性和显性的。如同一篇新闻稿,如果你是媒体人,会比普通人更容易判断内容的新闻性,这就是你的隐性知识。但 AI 不知道,这就导致它很难落地。


第二个阶段是从 2024 年开始的,起因有两个:第一,模型成本下降以及性能提升;第二,出现了一些示范应用,比如一些通用智能体应用,所以 2024 年到 2025 年更多解决的是示范应用的问题,就是除了聊天工具以外的第一层示范应用。示范应用最大的问题不是不好用,而是没有完全介入企业工作流,无法评估、无法兜底、无法追责


第三个阶段是从2025 年下半年开始的,如果说前两年还是生产效率的探索,现在就要往企业生产效率平台演进,对可信可靠、复杂性都提出了很高要求企业开始用生产系统的标准来要求 AI,而不是演示效果的标准。过去大家会说自己提升了多少,但其实都是时间的节省时间压缩能提升试错速度,但在如芯片制造、风控这类高约束场景里,瓶颈往往不在时间,而在物理和风险边界。这背后也涉及到今年进入企业要解决的几个问题,首先是真正围绕价值展开,再往后才是效率、准确性、复杂性等问题


这些东西要怎么提升?尤其是很多隐性知识如何显现?比如风投,同样是被投企业的三张表,为什么普通人看不出来,但 VC 就能看出很多门道?因为这些门道”是他们已经内化了的逻辑。换句话说,内化了的隐性知识是最有含金量的。这不同于我们现在常说的数字人,它只是把人的表象数字化,但没有做到内化,没有把人的隐性的东西数字化。如何让这些隐性的东西显现出来?就需要记忆。

雷峰网:在现阶段,企业要实现从“生产效率探索”到“生产效率平台”的跨越,您认为最需要突破的是什么?

离哲关键在于如何让这些隐性知识显现出来?就需要多模态记忆。


多模态记忆是企业刚需决策轨迹天生就是多模态的。企业中的一次采购决策,线索可能来自一份PDF报告(文本)、一次会议录音(音频)中的关键论点、一组历史价格曲线(图表)和审批流中的批注(结构化数据)。传统会话级别的记忆,仅是这条连续、混杂轨迹的一个孤立切片,丢失了绝大部分上下文与记忆链。多模态记忆平台的目标,是完整复现这条决策轨迹,让AI能在全量记忆基础上进行推理。


构建多模态记忆有很高的技术门槛它要求一整套记忆化工程技术栈和独立的多模态数据大模型来处理,包括:


多模态表征与对齐将文本、图像、表格等不同模态的信息,映射到统一的语义空间,并建立跨模态的关联(例如,将报告中的文字销量大涨PPT里的折线图峰值对齐)。


深度理解与结构化提取通过专用模型(如MemoryLake-D1),从复杂文档、图表中提取逻辑关系和结构化知识,而非简单转写文字。


记忆的状态管理处理记忆的逻辑冲突、更新、增强、反思与合成,这是一个动态的、持续的过程。


解释了为什么通用大模型厂商或传统数据平台难以胜任:前者缺乏深度结构化理解与系统级记忆管理能力;后者则缺乏顶层的多模态认知与推理能力。从这个层面来看,多模态记忆不是功能升级,而是AI范式革命

雷峰网:这是否意味着,多模态记忆平台的成功,就是建立一套不同于传统文本处理的数据理解、表征、存储、管理与计算体系?

离哲是的,这正是核心。我们训练MemoryLake-D1,不是为了做一个更好的OCR或语音转文本工具,那是功能优化。我们的目标是建立一套统一的多模态记忆框架,让表格的逻辑、图片的语义、语音的情绪都能被结构化地理解和关联,成为可推理的记忆单元。这确实需要从底层模型到以记忆为中心的存储计算架构的全面革新。

雷峰网:为什么会取 MemoryLake(记忆湖)这个名字?

离哲:本质上是因为人的记忆也是碎片的、多源的、多类型的比如说我今天看到你,可能有多个角度:第一是行业高知名度;第二是你来了我们公司;第三你是个媒体;第四我们有个交流;第五我们的面容、沟通过程中的音频等。总之它是一个碎片化的知识,就像是无数溪流汇成湖,它是一个动态、流动的集合,我们需要什么就从里面动态去基于意图,或者说你需要的时候,就根据意图、Context Window Size 实时帮你构建出来。


特别说明下,虽然现在大家都在提短期、中期、长期记忆,需要做静态的压缩、遗忘等,主要原因是人脑的存储容量、算力很有限;而真实世界不应该是静态进行预先压缩,而是采用全新的分布式多模态存储与计算能力,尽可能全部存储与组织,根据真实问题按需动态实时构建专属的精炼且完整的记忆。


具体到 MemoryLake-D1 ,因为它是数据Data的首字母,又是第一代,所以叫“D1”

雷峰网:MemoryLake 的产品形态是怎样的?您如何看待这种产品形态?

离哲:MemoryLake 有多种形态,最常见的形态之一就是做成 API兼容已有规范(如兼容mem0MCPOpenMemory这样用户就可以直接去使用熟悉的大模型和 Agent,就很容易接上我们,默认就有多模态记忆并且连接到海量数据


在海外,MemoryLake 的绝大部分场景是被集成,比如 ChatGPT 和 Claude。我们的记忆刚好可以把任意的数据转成任意一个大模型或Agent 支持的记忆形态,所以 MemoryLake 是插件形态还是别的什么形态都不重要。


MemoryLake 作为一个长期存在的记忆层,而不被某一个模型或工具锁死。

雷峰网:具体到 MemoryLake-D1,它主要解决了哪些方面的问题?调用成本如何?

离哲:MemoryLake-D1 主要解决的是数据理解的问题,就是我怎么更好地去理解 ExcelPDF 多模态内容,因为个性化的业务表格是非常复杂的Excel 很大程度上是最好最复杂的软件)。为了解决这个问题,我们投入很大资源去标注与合成数据,并结合用户的反馈,训练自己的多模态数据理解模型 MemoryLake-D1 解决这个问题。


至于 MemoryLake-D1 的调用成本,相比自己调用OCR 模型以及多模态视觉模型要低不少。不过这里面也涉及到权衡,你是要速度、灵活性、准确度不同选择还不太一样。比如极快,我们可以采用预静态编译Skills 的模式生成 coding持续复用实现高性能低灵活性低成本解析。

雷峰网:MemoryLake 的后续更新方向是什么?难点又在哪里?

离哲:MemoryLake-D1 目前主要还是文字、表格图片、文档、数据库、音频,后续主要增强视频和音频。


相比图片音视频会更困难一些。因为音频、视频有语速、有情绪,处理起来比较复杂。比如某个游戏玩家很愤怒,但当你把他的愤怒语音转文本后,很容易丢掉语速和情绪,进而改变这个玩家的最初语意。


这其实也是 AI 发展到当下面临的一个问题:会在转换的过程丢掉很多重要的信息。因为很多信息是隐性的,但模型与数据理解能力又是有限的。


02

内化隐性知识,构建决策智能

雷峰网:您之前反复提到“隐性知识”,如何将其内化到相关企业当中?

离哲:我觉得但凡要落地AI的企业,首先要做的是把企业员工过往的重要工作过程形成决策轨迹,把多模态的语音、视频、文本、文档、审批等多模态的决策轨迹化,后面才有效率的提升和突破点。

雷峰网:具体到质变科技,又是怎么做的?


离哲:首先需要明确一点,决策轨迹的完善不是一蹴而就的,它会越做越强,越来越完善。此外,从我们过往的实践来看,我们从第一天开始就认为:未来的终极智能一定是行动智能和决策智能,决策智能,才有行动智能,所以我们第一天就在做决策智能体,从 2024 开始研发当时的核心思想就是Every chat isoftware架构就是基于通用大模型生成思维树、然后自演进模式迭代生成局部代码来做这件事情,只有这样才能实现决策的可解释、可干预、可信可靠、可执行


比如我们做了高考的相关智能体。因为高考的所有过程和决策是公开的,所以高考也可以做预测。比如有人问,说自己的性格比较孤僻,适合读什么专业?然后把分数线、城市、性别输入智能体给他推荐相关的专业。又比如说有人想根据地理位置、家庭经济条件因素进行选择,哪些学校更适合留学?哪些更适合保研?智能体都能给出相应的推荐。


虽然这背后涉及到非常复杂的决策体系,但从本质上来说,如果决策本身跟快速验证强相关,就相对好做。至于很多隐性的信息,其实是被起来了。就比如像张雪峰这样经验丰富的辅导老师自然而然隐去自己过往积累的丰富的决策过程。

雷峰网:这是否意味着决策智能/AI个性化决策市场已经进入红海?以及当下面临着哪些发展难题?

离哲:这倒不会,AI个性化决策市场还是很大的,你要说决策智能难不难做?难做。只是很多难做的原因是因为没法验证或激励,或者说验证周期


怎么样把这些东西显现出来,就需要用到记忆以及大模型的深度思考能力,二者深度融合。在底层构建庞大的静态记忆如实体提取、知识Skill 化,在用的时候动态分层构建起来,这其实也是我们自己做的第一类产品。


至于第二类产品,就是我们后来服务的一些办公场景和游戏场景。

雷峰网:游戏场景?这个要怎么理解?


离哲:我一直觉得,游戏本质上是真实社会的投射,甚至是一个提前演化的更丰富社会实验场。


过去的游戏是静态的——你一旦下线,世界就停在那里等你回来。但现在不一样了,很多 AI 游戏里,你下线之后,这个世界并不会暂停,而是会以接近真实世界、甚至更快很多倍的速度继续运转。


游戏里的角色会继续生活、做选择、产生变化。某种意义上,它已经不只是给人玩的系统,而是一个持续运行的虚拟社会,在用更高的时间密度,去映射和放大真实世界的运行逻辑。


此外,除了天然离用户近、离价值评估近,游戏还有一个好处——容忍度。在游戏里记忆或 AI 理解局部错误还不会造成严重影响但是 AI 在企业场景容忍度极低

雷峰网:可以就AI 在企业侧的低容忍度展开讲讲吗?

离哲:容忍度这件事情上,在很多现实场景中远远超出大家想象的难,因为很多错误一旦发生,后果是不可逆的。比如电商客服,但凡涉及退货、赔款等规模性金融损失都很复杂。又比如保险,针对不同的人、不同的症状,保险费率也都不一样。

雷峰网:企业对 AI 的低容忍度,对 AI 发展的最大影响是什么?

离哲:我觉得低容忍度对 AI 发展的最大影响,不是简单的不敢用,而是企业没法接受一个行为不可解释、结果不可追溯、问题反复出现无法优化的系统。


这几年 AI 进企业之所以一直雷声大、雨点小,并不是模型不够聪明,而是很多系统每一次判断都像第一次做决定——它不记得自己之前为什么这么判断,也没法把决策依据完整地还原出来。


一旦出问题,企业最害怕的除了效率损失,还有三件事:为什么会错?错在哪里?以后还能不能避免?如果这些问题回答不了,哪怕系统再聪明,企业也不敢把它放进真正的生产和决策链条里。


从这个角度看,企业对 AI 的低容忍度,本质上是在逼 AI 回答,走向一个有记忆、有上下文、能解释自己行为、能解决问题的系统。这也是为什么我认为,记忆不是锦上添花,而是 AI 能不能真正进企业的前提条件。

雷峰网:既然如此,质变科技当前的用户构成是怎样的?


离哲:主要分为类:第一类偏办公;第二类偏金融;第三类偏AI游戏、具身智能等新行业。

在消费市场领域,MemoryLake 服务全球超过 150 万 专业数据用户。行业实践领域MemoryLake服务了国内超大规模生产系统中超10万亿级记录、亿级文档的文档办公、头部的企业移动办公软件、大模型、大型国央企等企业,在与全球云大厂和AI典型厂商等竞争中,MemoryLake在成本、准确召回率和延迟等性能指标方面有着数倍于对手的优势,如在某严苛的办公场景端到端评测中达到99.8 % 准确率。


03

泛化或将打败垂类

雷峰网:综合国内外市场、平台,您目前会关注示范应用的哪些方面?


离哲:分两类,通用垂类。通用应用更多是在做聊天层次,如果按业务深度分,ChatGPT 和 Claude 业务深度可能在第一对很多企业业务以及数据理解不够,执行不够可靠智能体公司可能在第二,大量垂类平台可能在第三,以及更深度定制+长周期交付的如Palantir可能在第四


虽然这些平台都在做某一类或者某一个深度的示范应用,但背后也存在逐渐吞噬的过程:随着通用大模型的不断增强,越往后,可能会吃掉越多的垂类深度。到一定时间后,今天所谓的 FDE+平台、刚刚兴起的 BPO等商业模式也就不一定存在。

雷峰网:可以就通用/泛化与垂类的关系展开说说吗?

离哲:我觉得泛化大概率会打败垂类。


今天很多企业(尤其是很多垂类创业公司)做的所谓垂类,缺少壁垒(有数据或数据模型的除外)。只是今天有很多企业在应用AI的不同阶段,从适配、接入改造再到价值升级的不同阶段中,需要一些角色如当前所谓的垂类来辅助完成阶段性任务。所以大家在这段时间会感觉垂类有价值,会觉得垂类能提高自己的效率,因为大家的起点都比较低。等大家都发展起来后,垂类的价值就不特别明显了。

雷峰网:您得出“泛化会打败垂类”这一结论的依据是什么?

离哲:我们在服务很多海外客户的时候,能明显感觉到他们对 ChatGPT Claude 的依赖远超垂类。这主要是因为通用大模型的演进很快,通用大模型的生态也很强大,他们现在的工具都在往上适配。在适配的过程中,它的能力也会越来越强,你会发现 ChatGPT Claude 每次发布新版本,一些浅层垂类就容易被淘汰。


比如Claude 前不久推出了Interactive Tools,这是件标志性大事,可能会颠覆未来软件的发展。因为它预示着未来任何软件都可以headless 化,不需要有界面而且它1/26 定义和发布了一套规范MCP Apps,围绕LLM的一体化UI以及跨应用交互规范,这才是真的革命SaaS最后一环。


LLM负责思考,Agent Skills负责注入领域知识,记忆湖负责链接以及组织多模态数据,MCP负责 通讯/调用/局部界面生成(MCPApps),新一代的应用范式实现软件业更迭。App 融入 MCP Apps 生态之后,受到最大伤害的就是垂类。在这之前,小垂类可能说我比大公司做的好 Interactive Tools出来后,当前的垂类可能都会受到冲击。

雷峰网:您判断“泛化或将打败垂类”,而记忆具有“引力效应”。这是否可以理解为,多模态记忆平台将成为AI时代的基础设施范式?就像云时代的数据平台。

离哲是的记忆会是AI 时代的主角记忆平台解决的不仅是记得住,更是如何深度理解如何深度组织“如何动态基于Query 构建”的范式问题。当通用大模型的能力通过像MCP/Agent Skills/OpenMemory这样的规范与多模态记忆平台深度融合,它就获得了持续进化的、可信的经验知识。这改变了软件构建的范式。我们坚信,定义并实现这套记忆驱动智能新范式的公司,将有机会成为AI时代的基石企业。

雷峰网:质变科技在未来如果有像 Manus 这样的机会,会考虑卖吗?

离哲:我们不会卖,虽然现在有很多公司想并购我们,但我们认为记忆这件事情在未来有很大的发展空间,是AI 时代的核心技术设施之一。因为记忆是有引力效应的,越用越好用,价值越来越大;模型可以随需切换,但是记忆是企业需要持续构建的核心资产。加之我们有平台能力、记忆能力、最佳实践的优势,我们有机会做出一个像DatabricksSnowflake 那样的公司。


此外,国家将人工智能定位为新时代国家战略性核心技术与新质生产力,强调 AI 不只是技术产业工具,而是推动现代化建设的“基础设施”和“关键力量”构建基础设施视角来看记忆平台也是核心基础设施之一

雷峰网:在保持独立性的前提下,质变科技会朝哪些方向发力?


离哲:核心技术方面我们会持续构建多模态能力如支持图片、视频、音频以及更多的数据源,增强MemoryLake-D1多模态数据模型的准确度、分布式记忆计算能力,提升产品端到端的精准度、可解释性、可干预性、安全性;

市场拓展方面我们会着重开拓游戏、办公、具身智能、金融等极具发展前景的市场领域;

技术研究方面,我们将深入对分布式记忆计算能力(记忆规模会持续加速增长)、端到端的记忆评估体系建设。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询