微信扫码
添加专属顾问
我要投稿
模型架构
请看上图。换句大白话的说,sigLIP的损失函数是在文字Tokens和图像Tokens的两个序列的基础上计算出来。它指导着模型训练朝着这相同样本对(图,文)的点积值越大,而不同图文对的点积值越小的目标迈进。即矩阵对角线的越大,其余的各自越小。
上图为SigLIP的预训练过程,它在三个设备进行训练。每设备持有4幅图和文字,在单设备上各自运算。紧接着不同的设备交换文本计算损失,如此循环直到全部计算完毕。
SigLIP 的视觉编码器在高层次上将图像分割成一系列不重叠的图像块,并将它们投影到低维线性嵌入空间中,从而产生一系列块嵌入。然后,这些块嵌入经过视觉编码器,该编码器应用自注意力来捕获长距离依赖关系并提取更高级的视觉特征。
SigLIP模型比Llama3小得多,而且在整个过程中是被冻结参数的。因此对于预训练和 SFT,我们直接传入这些预先计算好的图像嵌入(Embedding),而不是重新运行SigLIP。这使得训练能够增加批处理大小并最大限度地利用GPU来运行SigLIP,还为节省了训练/推理时间。
MPS(Metal Performance Shaders)是Apple提供的一套框架,专门用于在Apple设备上加速机器学习和图形计算。
通过SigLIP预计算图像嵌入的步骤,目标是将图像传入SigLIP以获得图像的矢量表示或嵌入。
由于分辨率较高,研究人员遵循LLaVA-UHD采用的方法并执行图像分割。图像分割的目的是将图像分成可变大小的块或片段,以实现更高效的编码和批量处理。
在第二个阶段微调更多的类似指令微调。这个步骤冻结SigLIP模型和投影层的权重,但是更新Llama3 8B模型的权重和其余的参数。这里用了大约1M张图像。除此之外还利用了从YI模型系列生成的多模态合成数据。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-21
[译] 我所知的全部智能体工程技巧
2026-06-20
13人团队叫板Anthropic:我们造了一个更快更便宜的大模型
2026-06-20
微信左上角长出“两只眼睛”:小微测试版,可能是微信 AI 化最关键的一步
2026-06-20
Agent Skill 管理范式探索:像管理软件包一样管理 Agent 能力
2026-06-18
企业智能体的下半场,如何让智能体越用越聪明?
2026-06-18
你的 Harness 工作流真的在进步吗?我们用一场考试撕掉了遮羞布
2026-06-18
Agent 记忆,我们全都理解错了?
2026-06-18
多 Agent 并行与 Headless 模式:让 Claude Code 效率翻 10 倍
2026-04-15
2026-04-07
2026-04-07
2026-03-31
2026-04-24
2026-04-17
2026-03-31
2026-04-05
2026-04-02
2026-04-05
2026-06-18
2026-06-18
2026-06-10
2026-06-10
2026-06-07
2026-06-06
2026-06-03
2026-06-02