微信扫码
添加专属顾问
我要投稿
AI的未来在于数据与模型的深度融合,OceanBase正引领这场变革。 核心内容: 1. 数据对AI模型的重要性及当前挑战 2. 数据库向“数据底座”演进,成为AI运行的“地基” 3. 新型数字化技术带来的数据增长,对基础设施的新要求
「Scaling Law 即将撞墙。」这一论断的一大主要依据是高质量数据不够用了,正如前 OpenAI 首席科学家 Ilya Sutskever 在 NeurIPS 2024 大会上警告的那样:「我们所知的预训练即将终结。」虽然近几个月由于测试时间计算(test-time compute)范式的快速发展,这个曾经喧嚣一时的观点现在已经少有人提,但数据对 AI 的重要性却不减反增,已然成为当前正在持续的「大模型大战」中最耀眼的元素之一。
为什么数据很重要?从本质上讲,当前几乎所有 AI 模型都依赖对数据中模式的学习,机器获得智能的过程很大程度上是对训练数据概率分布的建模与泛化。而随着我们进入了「AI 下半场」,数据库的发展范式也正从现有的「AI for DB」和「DB for AI」转向「Data×AI」,即数据与模型的一体化融合发展,同时「数据库」也正扩展成「数据底座」,即能够同时处理 OLTP、OLAP 和 AI 的混合负载的一体化引擎。这也是大模型真正落地、产生价值的基础。
正如 OceanBase CTO 杨传辉在 5 月 17 日的 OceanBase 2025 开发者大会上说的那样:「我认为在 AI 时代,我们需要的是一个一体化的数据底座,它的底层需要实现单机分布式一体化和云上云下一体化,用户需要一套统一支持 SQL、AP 和 AI 的数据库、数据底座。」这意味着,数据库系统正在从传统意义上的「存储介质」进化为 AI 运行的「地基」。 OceanBase 要做的正是「向一体化数据底座演进」。
为什么需要 Data×AI?
虽然「Scaling Law 撞墙论」宣称高质量数据即将耗尽,但实际上这里提到的高质量数据主要是指人类产生的易于获取的互联网数据。另一个方向上,随着生成式 AI 和新型数字化技术的发展,新生成的数据却正在日益暴增!IDC 预计,2028 年全球新生成数据量规模将达到惊人的 393.9 ZB—— 在 2024 年 147 ZB 的基础上还将以平均每年近 28% 的速度增长。如此海量的数据增长将给数据基础设施带来巨大的压力。不仅如此,多模态与非结构化数据爆发式增长、数据扩展性和碎片化等问题也在不断加剧。
这些问题综合起来,对底层基础设施的存储容量、架构扩展和实时分析能力提出了更高要求;也因此,数据库的稳健性与可扩展性已经成为 AI 应用成功的前提,正如数据科学界一句老话说的那样:「数据的边界决定模型的上限 」。如何高效、可靠地存储、管理和调用这些数据,成为 AI 基础设施能否支撑下一个十年的关键考验。可以说,数据在 AI 时代正面临着一场角色的重塑。
当然,这些需求也已经成为了相关领域发展的重要推动力。据 IDC 统计,2024 年全球大数据 IT 总投资规模约为 3540 亿美元,预计到 2028 年将增长至近 6440 亿美元。
「Data×AI」范式便是在这一背景中诞生的,传统意义上的 Data Infra(数据基础设施)概念正在走向升级:
Data Infra + AI → Data × AI Infra
也就是说,数据系统的作用不再只是为 AI 提供数据,而是本身也成为 AI 工作流程的一部分,与 AI 协同发展。
通过数据与 AI 的一体化融合,「Data×AI」范式有望解决行业数据流通难、多模态数据处理难、质量评估难等诸多问题。
比如在行业数据方面,数据碎片化早已是普遍存在的老大难问题,尤其在金融、医疗、工业制造等复杂严谨的行业,数据不仅分散在不同业务系统中,还存在极强的结构异构性和组织粒度差异。数据汇集的难度远高于算法构建。垂类数据缺乏统一建模方式,导致即使拥有大模型能力,也难以完成语义理解与业务联通。很多企业所谓的「AI 能力不足」本质上是「数据层打不通」。
多模态数据处理难主要体现在数据融合和对齐的复杂性上。在实际应用中,文本、图像、音频、视频等不同类型的数据具有各自独特的结构和特性。例如,文本数据是线性的,图像数据是二维的,而音视频数据则是时序性的。将这些异构数据有效地融合在一起,要求系统具备强大的数据对齐和同步能力。此外,不同模态的数据在质量、密度和可用性方面可能存在显著差异,进一步增加了处理的复杂性。这些挑战使得多模态 AI 系统在实现高效、准确的决策支持方面面临严峻考验。
数据质量评估难则主要源于数据的多样性和动态性。在 AI 模型训练过程中,数据的准确性、完整性、一致性和时效性直接影响模型的性能。然而,随着数据来源的多元化和数据量的激增,传统的数据质量评估方法已难以满足需求。例如,自动化工具可能难以识别和纠正数据中的细微错误或偏差,尤其是在非结构化数据中。此外,数据的实时更新和变化也要求评估机制具备高度的灵活性和适应性。因此,建立高效、智能的数据质量评估体系,成为确保 AI 模型可靠性和有效性的关键。
这些问题的解决将成为 AI 真正实现大规模乃至普及化应用的重要基础,尤其是在金融、健康、生活、开发等一些核心应用场景中。
而已发展 15 年的 OceanBase 已在这些方面取得了长足的进步。作为一个一体化分布式数据库,OceanBase 已经具备了一定的 AI 时代数据处理能力,如分布式有效应对海量数据的存储计算、多模融合统一处理不同结构数据、 TP/AP 一体化实现混合事务和实时分析处理。但大模型落地产生价值的核心在于数据与模型的一体化融合,这也正是 OceanBase 提出的构建 Data×AI 能力的关键。基于此,OceanBase 正在向 AI 时代战略跃迁。
OceanBase 在 AI 时代的战略跃迁
从最初的工程一体化、多租户、多兼容模式,演进到 HTAP 工作负载一体化(混合事务/分析处理),再到单机分布式一体化、多模型、多数据接口,还有如今 Shared Nothing 和 Shared Storage 两种部署模式的一体化,以及面向未来多云基础设施的存算分离引擎,一体化理念一直是 OceanBase 产品迭代不断发展的核心。
这种理念也切实地给 OceanBase 的发展带来了助益。自 2010 年开始投入研发以来,这款脱胎于蚂蚁集团的原生分布式数据库现已支付宝全部核心账务与核心支付系统,并连续十余年稳定支撑双 11,历经流量洪峰和稳定性考验。不仅如此,OceanBase 还是全球唯一接连打破「数据库世界杯」TPC-C 和 TPC-H 测试纪录的数据库,并已入选世界互联网领先科技奖。经过 15 年在海量核心场景中的持续深耕,OceanBase 已助力金融、政务、运营商、零售、互联网等多个行业的 2000 多家客户实现关键业务系统升级。
而现在,为了实现从一体化数据库向一体化数据底座(Data×AI)的演进,从去年 3 月开始独立运营的 OceanBase 一直在进行有针对性的创新研发。在 OceanBase 2025 开发者大会上,OceanBase CEO 杨冰总结了他们正在推进的四个大方向:
成为「知识底座」。企业要向智能化发展,必须要有一个更加贴合企业内部运行数据和领域知识的内部知识库,因此融合知识至关重要。为此,OceanBase 计划要做的包括增强向量能力、提升融合检索能力、实现企业知识存储体系的动态更新、深度整合模型后训练与微调。
打破「数据次元壁」。需要实现多模态的、不同形式和来源的数据的标量数据和向量数据的融合,为此还需要在数据存储的检索层上取得更多突破。
当 AI 的「靠谱参谋」。当前 AI 查询和引用的数据可能是不一致的或非实时的,甚至可能还是错误级的;为了解决这个问题,需要深度融合推理引擎和数据存储引擎。
做流量的「冲浪高手」。互联网上的流量存在明显的波峰和波谷,比如双 11 期间网购流量就会暴增。弹性地应对流量波动也非常关键。这是 OceanBase 的强项 —— 结合云的虚拟化的能力以及 OceanBase 的分布式的能力,并且深度适配这些训练以及推理的场景,可以最大化地挖掘这些数据的价值,同时获得最大的性价比。
会上,我们也看到了 OceanBase 在这些方向上的成果的一次集体展现。
首先来看一个现场跑分数据:OceanBase 在 VectorDBBench 上 的向量性能。通过现场测试 100 万条 768 维的数据并对比其它 3 款开源向量数据库,OceanBase 以领先的成绩证明了自己的实力。
OceanBase 还在原有的向量索引 HNSW 的基础上引入的 BQ 量化算法 —— 可将向量数据的内存需求平均降低 95%!举个例子,假设有 2 亿条 1536 维的向量数据,如果直接存储到内存,要用 1.2 TB 的内存,但如果进行量化处理,则只需 58.6 GB 即可。而对于向量数据量特别大以至于无法完全放入内存乃至需要分布式存储的情况,也可以通过量化的方式达到极致的性能。
这种在性能、成本、稳定性、运维性等方面的优势使 OceanBase 非常适合作为生产系统进行部署。
在此基础上,OceanBase 还在不断获得新能力,比如其拥有非常丰富的数据模态支持 —— 不仅支持传统关键数据库里的标量(OLTP、OLAP),也支持支持 JSON、全文索引、向量、混合搜索。而且 OceanBase 针对向量与标量混合检索的能力进行了引领业内的优化。
在这些底层技术能力的基础上,针对大模型的数据检索问题,OceanBase 在此次开发者大会上专门发布了一款面向 AI 时代的开箱即用的 RAG 服务:PowerRAG。其将不同类似文档的识别、切分、嵌入以及放入向量数据库和写 LLM 提示词等工作都封装成了一个公有云服务。OceanBase CTO 杨传辉表示:「我们的 PowerRAG 已经达到了业界主流 RAG 应用的性能水平,它的准确率和召回率肯定好于开发者自己写的 RAG。」
另外,OceanBase 也已经与业界主流的智能体(Agent)平台进行了很好的适配,包括 dify、FastGPT、DB-GPT、LangChain 等。OceanBase 也已经实现了对 MCP 协议的支持。
毫无疑问,OceanBase 正在全力拥抱 AI。
上个月,OceanBase 宣布 CTO 杨传辉担任 AI 战略一号位,全面统筹 AI 战略制定和技术产品落地。同时还宣布成立了 AI 平台与应用部并在原有的 OB 底层引擎团队里新成立了 AI 引擎组。
OceanBase 也对自己的「Data×AI 一体化数据底座」战略方向信心十足。在谈到「OceanBase 为什么行」时,除了 OceanBase 15 年坚持自主研发的过硬技术实力,CTO 杨传辉还给出了两大理由:
Data×AI 一体化数据底座其实是 OceanBase 一体化数据库的延伸,它的核心在于能不能做好数据处理,只是数据处理的范围会有所拓展。
AI 时代的应用大爆发给了 OceanBase 更大的机会,因为 AI 时代的应用会产生两个需求:更海量的数据和混合负载;而一体化和分布式刚好又是 OceanBase 的优势。
另外,相信「开源」也是这个问题的答案的重要组成部分。开源也是 OceanBase 2025 开发者大会上一个被重点强调的关键词。自 2021 年 6 月 1 号正式开源以来,OceanBase 已经成长为最流行的中国开源数据库之一 —— 已连续两年获得了「墨天轮」排名第一。杨传辉介绍说,OceanBase 的社区用户下载量已经突破了百万量级,并且集群的部署数量也已超过 5 万,增长还非常快 —— 年环比增长超过 400%。
墨天轮排行榜当前前 10 名,可以看到 OceanBase 目前以显著优势位居第一,截图来自 modb.pro/dbRank
AI 带来的深刻变革已经开始显现,其核心的数据自然也是这场变革的重中之重,甚至可能「未来所有的数据公司都将成为 AI 公司」—— 正如蚂蚁集团 CTO 何征宇说的那样。在这场变革中,凭借「Data×AI」战略,我们或将看到 OceanBase 迎来自己的跃迁。
数据库正在成为一大关键变量
当大模型的参数增速趋缓、应用同质化竞争加剧,一场「回到底层」的产业反思已经开始。人们越来越清楚地意识到:模型能走多远,取决于它脚下的数据有多厚实。毕竟 AI 不是空中楼阁,需要坚实的数据地基。
OceanBase 的方向并不神秘:构建一个真正为 AI 而生的一体化数据底座。从 PowerRAG 到压缩和量化算法,从向量支持到多模态数据融合,OceanBase 正让数据库成为下一个关键变量。正如 OceanBase CEO 杨冰在 4 月底的全员信中说的那样:「谁能更好地解决 Data 和 AI 的融合,实现 Data×AI,谁就能成为 AI 时代的数据底座。」
是时候把注意力投向那些看似「传统」的地方了。因为真正能承载未来智能的,不是某个爆款应用,而是能够支撑千行百业、接住海量数据洪峰的下一代数据底座。
OceanBase 的路径并非孤例,背后是整个数据库行业正与 AI 协同演进的共同趋势。数据库,还将继续进化。
© THE END
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-19
深度解析大模型技术演进脉络:RAG、Agent与多模态的实战经验与未来图景
2025-05-19
OpenAI推出Codex — ChatGPT内置的软件工程Agents
2025-05-19
每个有野心的AI浏览器都想成为新的操作系统
2025-05-19
WASP:基于加权多预训练语言模型融合的对比式隐私数据合成
2025-05-19
大模型开发理论与技术——大模型应用体系梳理,对大模型应用整体认识
2025-05-19
从PMF到TMF:AI产品设计的思考
2025-05-19
AI的冰火两重天,2C红利吃饱,2B进退两难
2025-05-19
3分钟上手!FastMCP颠覆传统API开发,大模型落地效率提升10倍
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-05-18
2025-05-18
2025-05-17
2025-05-13
2025-05-13
2025-05-12
2025-05-11
2025-05-09