免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

向量,向量化,向量数据库和向量计算

发布日期:2026-02-05 19:36:34 浏览次数: 1511
作者:小数据自留地

微信搜一搜,关注“小数据自留地”

推荐语

AI时代必备技能:一文读懂向量计算与向量数据库的核心原理与应用场景。

核心内容:
1. 向量化计算的底层原理与性能优势
2. AI场景下的向量表示与语义相似度计算
3. 向量数据库如何突破传统检索的语义局限

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
最近大家都在All in AI,我们的业务系统也要开始接入AI助手,伴随AI的向量数据库突然就变成了我们运维团队的下一个重要目标,向量,向量化,向量数据库和向量计算这些概念扑面而来,下面我们就一个个的解读下
向量化计算
我们先看看这个向量计算,它本身和大模型无关,最初是在Clickhouse中注意到这个概念的,这个是Clickhouse的一个核心特性,现在其实很多大数据的计算引擎和数据库都支持向量计算,例如Spark, Doris等。
向量化计算对不同的数据执行同样的一个或一批指令,或者说把指令应用于一个数组/向量,通过数据并行提高性能。其原理是在CPU寄存器层面实现数据并行,利用了CPU的SIMD指令来处理计算。SIMD指令即"single instruction, multiple data"(单指令流多数据流),“单指令流”指的是同时只能执行一 种操作,“多数据流”则指的是在一 组同构的数据(即向量)上进行操作。

下图很好的描述了向量计算,常量计算是将A0-3, B0-3每个数据独自运算,需要4次计算才能得到右边C0-3的结果,进行向量操作就是CPU把A0-3和B0-3都分别当做一个向量,那么进行一次计算即可得到结果:

Image


它本质上是采用一个控制器来控制多个处理器,同时对一组数据中的每一条分别执行相同的操作,从而实现空间上的并行性的技术。SSE 正是Intel提出的一套专门为 SIMD(单指令多数据)架构设计的指令集。Clickhouse目前使用SSE4.2的指令集实现向量化执行,每次安装Clickhouse的时候都需要检测CPU是否支持该指令集


向量和向量化
向量和向量化都是我们在AI中经常会遇到的概念。在数学中,向量指具有大小和方向的量。在二维平面或三维空间中,它可以形象化地表示为带箭头的线段。在计算机世界中,我们可以把向量简单地理解为一组“有意义的数字”,用来表示事物的特征。

向量化(Embedding)是指将输入数据(例如非结构化文本)转化为向量表示的过程:由预训练语言模型通过其深层语义编码能力,将文本的语义信息、逻辑关联转化为可量化的数值特征,最终输出维度固定、语义一致的向量表示,简单来说向量化就是把其它格式的数据转换为向量形式。

因为向量除了有利于数学算法处理外,核心特点是能表示事物之间的“相似性”向量化的核心目的,是将日志、故障描述这类非结构化自然语言转化为可计算、带语义信息的高维数值向量,突破传统关键词匹配的局限,让计算机能精准捕捉文本的语义关联,信息被转化为向量,查找相似项就变成了计算向量之间的距离,例如计算向量的余弦相似度。
余弦相似度关注的是两个向量在方向上的差异,而忽略它们的大小,简单的来说可以看为二个向量夹角的余弦值。它将向量视为空间中的箭头,只比较两个箭头所指方向的接近程度。方向越一致,余弦值越接近1,表示语义越相似。
向量数据库

明白了向量和向量化的概念,就很好理解向量数据库了。向量数据库是一种专门用于高效管理高维向量数据的系统,核心目标是实现海量向量的快速相似性搜索。随着深度学习模型(如BERT、CLIP、Sentence-BERT)能够将文本、图像、音频等非结构化数据编码为语义向量,向量数据库已成为现代AI应用的关键基础设施。传统数据库擅长处理结构化数据的精确查询),但无法高效回答“找出与这句话意思最相近的文档”这类语义相似性问题。这种任务需要计算查询向量与库中所有向量的相似度(如余弦相似度、欧氏距离),而在百万甚至十亿级数据上进行暴力搜索计算开销巨大,无法实现。向量数据库通过近似最近邻搜索技术(Approximate Nearest Neighbor, ANN),在可接受的精度损失下,将搜索复杂度从O(N)降至O(log N)甚至更低,从而实现实时响应。

向量数据库核心能力

  • 向量存储:高效存储原始 / 量化后的高维向量,支持亿级 / 十亿级海量数据。

  • 向量索引:通过构建专用索引(如 HNSW、IVF、FAISS、PGVector)降低相似性检索的时间复杂度,实现毫秒级查询;

  • 相似性计算:原生支持余弦相似度、欧氏距离、点积等主流向量相似度计算方式;

  • 混合查询:部分向量数据库支持 “向量相似检索 + 结构化条件过滤”(如按时间、标签筛选),适配复杂业务场景。


了解了向量数据库需要的核心能力以后,我们可以看到其实向量数据库并不仅局限于Milvus、Weaviate, 同样还有些传统数据库在原有数据库基础上增加向量能力, PGVector(PostgreSQL 插件)ClickHouse(新增向量索引),腾讯就分享过一篇基于CK做向量检索,值得后续对向量数据库有一定的理解再去反复读:
微信向量检索分析一体化数仓探索:OLAP For Embedding

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询