Pixeltable:一张表搞定embeddings、LLM、向量搜索，多模态开发不再拼凑工具

发布日期：2025-11-24 21:07:39 浏览次数： 2024

作者：DeepHub IMBA

微信搜一搜，关注“DeepHub IMBA”

开发过多模态 AI 应用的人都应该遇到过这个问题，其实最头疼的不是算法而是基础设施。

向量数据库需要存 embeddings；SQL 数据库需要元数据管理；大文件还要放到对象存储上，不仅邀单独跑个 pipeline 做 chunking，还要再写个脚本调模型推理，最后还得套个 Agent 框架把这些东西串起来。

代码里到处是胶水逻辑，维护起来十分麻烦。

Pixeltable 这个开源库就的目标就是解决这个问题："别折腾了，全放一个地方不就完了。"

听起来简单粗暴，但实际用一下还真确实解决了不少问题。因为它提供了一个统一的声明式接口，文档、embeddings、图像、视频、LLM 输出、分块文本、对话历史、工具调用这些东西，全部以表的形式存在。数据一更新，相关计算自动触发。

现有方案的问题在哪

现在搞 AI 应用的技术栈基本是拼凑出来的：

SQL 处理结构化数据，向量库管 embeddings，对象存储扔大文件，Cron 或 Airflow 跑 pipeline，Python 脚本散落各处，再加上各种 API wrapper 对接 OpenAI、HuggingFace、Anthropic。

每个环节独立运行，数据在不同系统间流转，出了问题排查困难。

Pixeltable 的思路则是是让表本身就能处理完整的 pipeline。插入数据后 embeddings 自动算好，改代码只重算变化的部分，图像视频音频 PDF 也可以直接存，LLM、视觉模型、自定义函数都在表里跑，向量搜索和 SQL 过滤同时进行，还有内置的版本控制和时间回溯，导出支持 Parquet、LanceDB、COCO、PyTorch Datasets。

对于开发来说核心逻辑写完了，剩下的就是框架的事了。

简单上手

 pip install pixeltable

先建个多模态表：

 import pixeltable as pxt  
   
 # A table with an image column
 t = pxt.create_table('images', {'input_image': pxt.Image})

加个计算列，这列的值会自动算出来。Pixeltable 和 Hugging Face 做了集成，可以直接调用：

 from pixeltable.functions import huggingface  

t.add_computed_column(  
    detections=huggingface.detr_for_object_detection(  
        t.input_image,  
        model_id='facebook/detr-resnet-50'  
    )  
 )

提取字段：

 t.add_computed_column(  
     detections_text=t.detections.label_text  
 )

OpenAI Vision 也可以接进来：

 from pixeltable.functions import openai  

t.add_computed_column(  
    vision=openai.vision(  
        model='gpt-4o-mini',  
        prompt="Describe what's in this image.",  
        image=t.input_image  
    )  
 )

插入一张图像，所有我们设置的计算就自动跑起来了：

 t.insert({'input_image': 'https://raw.github.com/pixeltable/.../000000000025.jpg'})

查询结果：

 results=t.select(  
     t.input_image,  
     t.detections_text,  
     t.vision  
 ).collect()

这样数据摄取、目标检测、LLM 处理、结果查询，一套流程在一个系统里跑完了。

底层怎么做的？

Pixeltable 在后台处理了不少细节：

数据摄取这块，图像音频视频 PDF 都存在本地，自动建立引用关系。计算列只在需要的时候执行，不会无脑重跑所有数据。OpenAI、HuggingFace、CLIP、YOLOX 这些模型集成都是内置的，embedding 索引也直接在表里，不用再搭向量数据库。

版本控制和时间回溯查询都有，就算是改错了可以回退。缓存机制只重算受代码变更影响的数据，这样省时间也能省钱。

一些实际例子

1、自动计算利润

最简单的场景，电影收入和成本算利润：

 import pixeltable as pxt  

t = pxt.create_table(  
    'films',  
    {'name': pxt.String, 'revenue': pxt.Float, 'budget': pxt.Float},  
    if_exists="replace"  
)  
t.insert([  
    {'name': 'Inside Out', 'revenue': 800.5, 'budget': 200.0},  
    {'name': 'Toy Story', 'revenue': 1073.4, 'budget': 200.0}  
])  
# Computed column
t.add_computed_column(  
    profit=(t.revenue - t.budget),  
    if_exists="replace"  
)  
 print(t.select(t.name, t.profit).collect())

不需要写循环每行的利润都会自动算好。

2、YOLOX 目标检测

想用 YOLOX 做目标检测，也是直接写个普通函数就行：

 @pxt.udf  
 def detect(image):  
     model = Yolox.from_pretrained("yolox_s")  
     result = model([image])  
     return [COCO_CLASSES[label] for label in result[0]["labels"]]

需要把计算函数注册成计算列：

 t.add_computed_column(classification=detect(t.image))

这样批处理、模型复用、结果存储都自动搞定了。

3、CLIP 图像相似度检索

在创建一个表：

 images=pxt.create_table('my_images', {'img': pxt.Image}, if_exists='replace')

加 embedding 索引：

 frompixeltable.functions.huggingfaceimportclip  
   
 images.add_embedding_index(  
     'img',  
     embedding=clip.using(model_id='openai/clip-vit-base-patch32')  
 )

用文本检索图像：

 sim=images.img.similarity("a dog playing fetch")  
   
 results=images.order_by(sim, asc=False).limit(3).collect()

或者用图像检索图像：

 sim2=images.img.similarity(query_image_url)

接口统一，输入是文本还是图像都一样。

完整的 RAG 系统

不用 LangChain 也不用独立的向量数据库，直接在 Pixeltable 里搭 RAG。

存一个文档：

 docs=pxt.create_table('my_docs.docs', {'doc': pxt.Document})  
 docs.insert([{'doc': 'https://.../Jefferson-Amazon.pdf'}])

然后按句子切块：

 chunks = pxt.create_view(  
     'doc_chunks',  
     docs,  
     iterator=DocumentSplitter.create(document=docs.doc, separators='sentence')  
 )

建 embedding 索引：

 embed=huggingface.sentence_transformer.using(model_id='all-MiniLM-L6-v2')  
 chunks.add_embedding_index('text', string_embed=embed)

定义一个检索函数：

 @pxt.query  
 defget_relevant_context(query, limit=3):  
     sim=chunks.text.similarity(query)  
     returnchunks.order_by(sim, asc=False).limit(limit).select(chunks.text)

创建问答表：

 qa=pxt.create_table('my_docs.qa_system', {'prompt': pxt.String})

检索上下文、格式化 prompt、调 LLM：

 qa.add_computed_column(context=get_relevant_context(qa.prompt))  

qa.add_computed_column(  
    final_prompt=pxtf.string.format(  
        "PASSAGES:\n{0}\nQUESTION:\n{1}",  
        qa.context,  
        qa.prompt  
    )  
)  
qa.add_computed_column(  
    answer=openai.chat_completions(  
        model='gpt-4o-mini',  
        messages=[{'role': 'user', 'content': qa.final_prompt}]  
    ).choices[0].message.content  
 )

这样就可以提问了：

 qa.insert([{'prompt': 'What can you tell me about Amazon?'}])

差不多30 行代码完整 RAG 就跑起来了。

总结

多模态应用虽然已经从实验阶段走向生产，但是基础设施还没跟上节奏，大家还都在用各种工具拼接方案。

Pixeltable 的核心贡献不是提出新算法或新模型，而是提供了一个新的抽象层。"一切皆表"这个理念把图像、embeddings、视频、元数据、LLM 输出、文本块、工具调用统一到一个数据结构里。

这样整个工作流就变得声明式、增量式、可重现、可检索、版本化、统一化。这才是现代 AI 基础设施该有的样子。

如果你在做实际的 AI 项目，Pixeltable 可能会让你感觉"这玩意儿直接砍掉了一半架构"：RAG 系统、多模态分析、图像视频 pipeline、agent workflow、自定义数据处理、数据集准备、embedding 检索，基本上涉及多模态数据的场景都能用。

上下文工程正在成为 AI 应用的新后端，Pixeltable 算是第一个专门为此设计的框架，值得试试。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-11

别再为 AI 调用超支头疼：Credits 配额，让每一笔消耗都透明可控

2026-07-11

阿里腾讯 AI 大战

2026-07-10

OpenAI“杀死了”Codex，一个超级应用诞生

2026-07-10

OpenAI 重磅推出超级 APP 及 GPT 5.6

2026-07-10

GPT-5.6 正式开放：三个型号一起放出完整成绩单，ultra 其实是 4 个智能体并行

2026-07-10

GPT-5.6深夜上线，首发实测，Claude Fable5 慌了！

2026-07-10

刚刚，GPT-5.6全面上线，Codex被合并，生产力工具ChatGPT Work来了

2026-07-09

Claude Design 迎来一次重大更新

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

Hermes Agent模型配置小白指南

2026-04-14

一文读懂DeepSeek V4：1.6万亿参数、百万上下文、华为芯片

2026-04-24

可能是一份最详细的保姆级Codex教程，看完你就知道它为什么最近这么火

2026-05-19

GPT-Image-2 全量上线，中文顶到爆，50+ Case 生图实测

2026-04-22

GPT-5.5来了！我撤回了退订ChatGPT的决定

2026-04-24

GPT-5.5 发布，详细解读

2026-04-24

Anthropic放出Opus4.7，附最新使用方法！

2026-04-16

大家都在问

治理与进化，如何成为企业级 Agent 的两条生死线？

2026-07-06

Loop Engineering 会是 AI 的下个关键词吗？

2026-07-05

微信AI，能避开豆包手机的窘境吗？

2026-06-30

AgentTeams 和 Claude Tag 都进入群聊模式，是新范式还是新叙事？

2026-06-27

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

微信在金矿上孵化了啥？

2026-06-25

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw