我要投稿

向量，向量化，向量数据库和向量计算

发布日期：2026-02-05 19:36:34 浏览次数： 2062

作者：小数据自留地

微信搜一搜，关注“小数据自留地”

最近大家都在All in AI，我们的业务系统也要开始接入AI助手，伴随AI的向量数据库突然就变成了我们运维团队的下一个重要目标，向量，向量化，向量数据库和向量计算这些概念扑面而来，下面我们就一个个的解读下。

向量化计算

我们先看看这个向量计算，它本身和大模型无关，最初是在Clickhouse中注意到这个概念的，这个是Clickhouse的一个核心特性，现在其实很多大数据的计算引擎和数据库都支持向量计算，例如Spark， Doris等。

向量化计算是对不同的数据执行同样的一个或一批指令，或者说把指令应用于一个数组/向量，通过数据并行提高性能。其原理是在CPU寄存器层面实现数据并行，利用了CPU的SIMD指令来处理计算。SIMD指令即"single instruction, multiple data"（单指令流多数据流），“单指令流”指的是同时只能执行一种操作，“多数据流”则指的是在一组同构的数据（即向量）上进行操作。

下图很好的描述了向量计算，常量计算是将A0-3， B0-3每个数据独自运算，需要4次计算才能得到右边C0-3的结果，进行向量操作就是CPU把A0-3和B0-3都分别当做一个向量，那么进行一次计算即可得到结果：

它本质上是采用一个控制器来控制多个处理器，同时对一组数据中的每一条分别执行相同的操作，从而实现空间上的并行性的技术。SSE 正是Intel提出的一套专门为 SIMD（单指令多数据）架构设计的指令集。Clickhouse目前使用SSE4.2的指令集实现向量化执行，每次安装Clickhouse的时候都需要检测CPU是否支持该指令集。

向量和向量化

向量和向量化都是我们在AI中经常会遇到的概念。在数学中，向量指具有大小和方向的量。在二维平面或三维空间中，它可以形象化地表示为带箭头的线段。在计算机世界中，我们可以把向量简单地理解为一组“有意义的数字”，用来表示事物的特征。

向量化（Embedding）是指将输入数据（例如非结构化文本）转化为向量表示的过程：由预训练语言模型通过其深层语义编码能力，将文本的语义信息、逻辑关联转化为可量化的数值特征，最终输出维度固定、语义一致的向量表示，简单来说向量化就是把其它格式的数据转换为向量形式。

因为向量除了有利于数学算法处理外，核心特点是能表示事物之间的“相似性”。向量化的核心目的，是将日志、故障描述这类非结构化自然语言转化为可计算、带语义信息的高维数值向量，突破传统关键词匹配的局限，让计算机能精准捕捉文本的语义关联，信息被转化为向量，查找相似项就变成了计算向量之间的距离，例如计算向量的余弦相似度。

余弦相似度关注的是两个向量在方向上的差异，而忽略它们的大小，简单的来说可以看为二个向量夹角的余弦值。它将向量视为空间中的箭头，只比较两个箭头所指方向的接近程度。方向越一致，余弦值越接近1，表示语义越相似。

向量数据库

明白了向量和向量化的概念，就很好理解向量数据库了。向量数据库是一种专门用于高效管理高维向量数据的系统，核心目标是实现海量向量的快速相似性搜索。随着深度学习模型（如BERT、CLIP、Sentence-BERT）能够将文本、图像、音频等非结构化数据编码为语义向量，向量数据库已成为现代AI应用的关键基础设施。传统数据库擅长处理结构化数据的精确查询），但无法高效回答“找出与这句话意思最相近的文档”这类语义相似性问题。这种任务需要计算查询向量与库中所有向量的相似度（如余弦相似度、欧氏距离），而在百万甚至十亿级数据上进行暴力搜索计算开销巨大，无法实现。向量数据库通过近似最近邻搜索技术（Approximate Nearest Neighbor, ANN），在可接受的精度损失下，将搜索复杂度从O(N)降至O(log N)甚至更低，从而实现实时响应。

向量数据库核心能力

向量存储：高效存储原始 / 量化后的高维向量，支持亿级 / 十亿级海量数据。
向量索引：通过构建专用索引（如 HNSW、IVF、FAISS、PGVector）降低相似性检索的时间复杂度，实现毫秒级查询；
相似性计算：原生支持余弦相似度、欧氏距离、点积等主流向量相似度计算方式；
混合查询：部分向量数据库支持 “向量相似检索 + 结构化条件过滤”（如按时间、标签筛选），适配复杂业务场景。

了解了向量数据库需要的核心能力以后，我们可以看到其实向量数据库并不仅局限于Milvus、Weaviate, 同样还有些传统数据库在原有数据库基础上增加向量能力， PGVector（PostgreSQL 插件）ClickHouse（新增向量索引），腾讯就分享过一篇基于CK做向量检索，值得后续对向量数据库有一定的理解再去反复读：