我要投稿

硅基流动 x 深度求索：SiliconCloud首发上线加速版DeepSeek-VL2

发布日期：2024-12-19 19:26:51 浏览次数： 3875

作者：硅基流动

微信搜一搜，关注“硅基流动”

继发布DeepSeekV2.5系列最后一个版本后，深度求索开源了开发者们期待已久的视觉-语言系列模型DeepSeek-VL2。与其它各类Dense型视觉模型所不同的是，DeepSeek-MoE架构配合动态切图，让DeepSeek-VL2在视觉问答、光学字符识别（OCR）、文档/表格/图表理解及视觉定位等各种任务中表现出卓越能力。可以说，MoE重新定义了视觉模型。　

DeepSeek-VL2系列模型包括DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2。其中，DeepSeek-VL2基于DeepSeekMoE-27B构建，具有4.5B激活参数，在激活参数相同或更少的情况下，实现了与现有开源密集型模型和MoE基础模型相当或最先进的性能。　

今天，硅基流动联合深度求索团队，在SiliconCloud首发上线推理加速版DeepSeek-VL2（价格为￥0.99/ M Tokens），免去开发者的部署门槛，只需在开发应用时轻松调用API，带来更高效的用户体验。平台还支持开发者自由对比体验数十款大模型，为你的生成式AI应用选择最佳实践。

在线体验　

https://cloud.siliconflow.cn/playground/chat/17885302689
　

API文档　

https://docs.siliconflow.cn/api-reference/chat-completions/chat-completions

感受一下SiliconCloud上的DeepSeek-VL2在加速后的效果。　

1.梗图识别
　

2.图表理解

更多玩法可以在接入DeepSeek-VL2 API后解锁。　

模型亮点及性能

DeepSeek-VL2之所以展现出色的视觉理解效果，是因为在三个方面进行了重磅升级：　

数据：比DeepSeek-VL多一倍优质训练数据，引入梗图理解、视觉定位、视觉故事生成等新能力；
架构：视觉部分使用切图策略支持动态分辨率图像，语言部分采用低成本、高性能的MoE架构；
训练：继承DeepSeek-VL的三阶段训练流程，同时通过负载均衡适配图像切片数量不定的困难，对图像和文本数据使用不同流水并行策略，对MoE语言模型引入专家并行，实现高效训练。

通过以上技术突破，DeepSeek-VL2模型在各项评测指标上均取得了极具优势的成绩，可比肩闭源模型GPT-4V、Claude 3.5 Sonnet。　

开发者评价

作为为数不多真正享誉国内外AI社区的“国产之光”，DeepSeek以其低调务实但实力超群的做事风格赢得了广大开发者的喜爱。　

DeepSeek-VL2模型发布后，不少开发者给出了积极评价。有网友称，它在每个激活参数上超过了之前的帕累托前沿，采用了巧妙的tiling策略、数据集和训练细节。　

DeepSeek一如既往表现得很了不起。　

还有人问，为什么还没有人提供DeepSeek-VL2的API？

现在，你可以在SiliconCloud上接入并体验这款出色的视觉模型了。

Token工厂SiliconCloud
Qwen2.5（7B）等20+模型免费用

作为一站式大模型云服务平台，SiliconCloud致力于为开发者提供极速响应、价格亲民、品类齐全、体验丝滑的模型API。

除了DeepSeek-VL2，SiliconCloud已上架包括DeepSeek-V2.5-1210、mochi-1-preview、Llama-3.3-70B-Instruct、HunyuanVideo、Marco-o1、fish-speech-1.5、QwQ-32B-Preview、Qwen2.5-Coder-32B-Instruct、Qwen2-VL、InternVL2、Qwen2.5-7B/14B/32B/72B、FLUX.1、InternLM2.5-20B-Chat、BCE、BGE、SenseVoice-Small、GLM-4-9B-Chat在内的数十种开源大语言模型、图片/视频生成模型、语音模型、代码/数学模型以及向量与重排序模型。

其中，Qwen2.5（7B）、Llama3.1（8B）等多个大模型API免费使用，让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本，实现“Token 自由”。