微信扫码
添加专属顾问
我要投稿
Ollama v0.11.7重磅升级,深度集成DeepSeek-V3.1大模型并推出Turbo云端推理模式,为开发者带来更强大的本地AI推理体验。 核心内容: 1. 全面支持DeepSeek-V3.1大模型,引入创新的混合思考模式 2. 推出Turbo云端推理模式,解决超大参数模型的硬件需求 3. 修复多个关键问题,优化CPU-only系统下的多模型加载体验
2025年8月26日,Ollama团队正式发布了v0.11.7版本,这是一个重要的功能更新版本。本次更新的核心亮点在于全面支持DeepSeek-V3.1大模型,引入了混合思考模式(Hybrid Thinking)的控制能力,并推出了Turbo云端推理模式(预览版) 以应对超大参数模型的硬件需求。此外,该版本还修复了多个前版本中存在的关键问题,包括CPU-only系统下的多模型加载问题、模型输出解析异常以及工具调用中的特殊字符处理等。
Ollama作为一个开源的大型语言模型本地运行框架,持续在简化模型部署和优化推理体验方面进行创新。v0.11.7版本的发布进一步巩固了其在本地AI推理领域的地位,为开发者和研究者提供了更强大、更灵活的工具集。
DeepSeek-V3.1是DeepSeek系列的最新版本,拥有超过671B(6710亿)参数,属于超大规模语言模型。这类模型在理解能力、生成质量和多任务处理方面表现出色,但同时也对硬件资源提出了极高要求。该模型支持128K长上下文处理,在代码生成、数学推理、创意写作和专业领域问答等任务中均有卓越表现。
DeepSeek-V3.1引入了创新的混合思考模式,这是v0.11.7版本的核心特性之一。混合思考允许用户控制模型是否显示其推理过程和思维链,类似于让模型"展示解题步骤"。
API调用方式:
用户可以通过在API请求中设置think
参数来启用或禁用思考模式:
.
curl http://localhost:11434/api/chat -d '{
"model": "deepseek-v3.1",
"messages": [
{
"role": "user",
"content": "why is the sky blue?"
}
],
"think": true
}'
命令行界面使用:
在Ollama的交互式命令行中,用户可以使用以下命令控制思考模式:
/set think
/set nothink
思考功能的引入使模型决策过程更加透明,有助于用户理解模型的推理路径,对于调试和教育教学场景尤其有价值。当启用思考模式时,模型会将其内部推理过程与最终答案分开展示,这不仅提高了模型的可解释性,也让开发者能基于思考过程设计更复杂的应用逻辑。
DeepSeek-V3.1拥有671B参数,即使经过量化处理,也需要大量的VRAM(视频内存)才能运行。例如,4-bit量化的671B模型仍需约35GB的VRAM,这超出了大多数消费级显卡的能力范围。为了应对这一挑战,Ollama v0.11.7引入了Turbo模式,这是一种云端推理解决方案。
通过Ollama应用程序使用Turbo:
deepseek-v3.1:671b
通过命令行使用Turbo:
OLLAMA_HOST=ollama.com ollama run deepseek-v3.1
Turbo模式的核心思想是云端协同推理——将计算密集型任务卸载到云端高性能硬件,而用户端保持交互的流畅性。这种架构结合了本地推理的低延迟优势和云端计算的强大性能。
Ollama与NVIDIA、AMD、Qualcomm、Intel和Microsoft等硬件巨头合作,通过精准检测硬件元数据,优化内存估算和分配策略。针对超大规模模型如DeepSeek-V3.1,Turbo模式采用了动态模型分片和流水线并行技术,将模型的不同部分分布到多个计算设备上,从而实现高效推理。
v0.11.7版本包含了多项重要的问题修复和性能优化,这些改进显著提升了Ollama的稳定性和兼容性。
此前版本在仅有CPU的系统上运行时,存在无法同时加载多个模型的问题。v0.11.7通过优化内存分配模型和模型切换机制,解决了这一限制。新版本引入了更高效的内存复用策略,减少了模型切换时的开销,使CPU-only环境能够更流畅地运行多个模型。
DeepSeek-V3.1与其他一些模型在输出时可能跳过初始的<|begin▁of▁sentence|>
标签,导致之前版本的解析逻辑出现错误。v0.11.7增强了输出解析的容错性,通过以下方式改善了解析流程:
工具调用(Tool Calling)是Ollama的重要功能之一,允许模型与外部工具和API交互。此前版本中,当工具调用包含大括号{
或}
时,解析器会出现错误。v0.11.7通过以下方式修复了这一问题:
为了全面评估v0.11.7版本的性能提升,我们进行了系列测试,对比了v0.11.6和v0.11.7在多个维度上的表现。
在CPU-only系统中,我们测试了同时加载两个7B参数模型的内存占用情况:
使用DeepSeek-V3.1模型进行标准文本生成任务测试(输入长度512 tokens,输出长度128 tokens):
通过标准基准测试(包括MMLU、HellaSwag和GSM8K),验证了DeepSeek-V3.1在不同模式下的输出质量:
Ollama v0.11.7的强大功能为多种应用场景提供了技术支持,以下是几个典型用例:
DeepSeek-V3.1的混合思考模式使其成为教育和研究领域的理想工具。教育工作者可以利用思考模式向学生展示问题解决的完整思维过程,而研究人员则可以深入分析模型的推理路径,促进可解释AI研究的发展。
示例应用:构建智能数学辅导系统,系统不仅提供答案,还通过思考模式展示解题步骤和相关数学概念。
Turbo模式使企业能够在不必投资昂贵硬件的情况下使用最先进的大语言模型。结合Ollama的工具调用功能,开发者可以构建复杂的AI辅助系统。
示例应用:开发智能客服代理,利用DeepSeek-V3.1的长上下文能力处理复杂客户查询,并通过工具调用整合企业内部的数据库和API。
DeepSeek-V3.1在创意写作、营销文案生成和技术文档编写方面表现出色。v0.11.7的稳定性提升确保了长时间创作会话的可靠性。
示例应用:构建多模态内容创作工作流,结合Ollama的图像处理能力和DeepSeek-V3.1的文本生成能力,创建图文并茂的内容。
根据使用场景的不同,我们推荐以下硬件配置:
Ollama支持多种模型,用户应根据具体需求选择合适的模型:
Ollama v0.11.7的发布标志着本地AI推理工具的重要进展。从技术发展趋势来看,以下几个方面值得关注:
基于v0.11.6版本引入的多模态引擎,Ollama预计将继续增强图像、音频和视频的处理能力。DeepSeek-V3.1的未来版本可能原生支持多模态输入输出,进一步扩展应用场景。
Turbo模式的初步实现为分布式推理奠定了基础。未来版本可能会提供更细粒度的分布式推理控制,允许用户指定模型部分在本地运行、部分在云端运行,从而实现性能与隐私的最佳平衡。
工具调用功能的完善将促进Ollama工具生态的发展。未来可能会出现专门为Ollama模型设计的工具集市,方便开发者集成各种外部工具和API。
随着模型规模的持续增长,量化技术和模型优化算法将变得更加重要。预计未来版本将提供更多量化选项和更高效的优化策略,进一步降低大模型的运行门槛。
Ollama v0.11.7是一个功能丰富且实用的更新版本,通过深度集成DeepSeek-V3.1模型、引入Turbo云端推理模式和修复关键问题,显著提升了用户体验和系统能力。混合思考功能为模型行为提供了前所未有的透明度,而Turbo模式则使资源受限的用户也能访问最先进的超大规模模型。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-27
初探:从0开始的AI-Agent开发踩坑实录
2025-08-26
重磅开源!通义万相最新模型来了
2025-08-26
手把手教你:用字节最新开源 “扣子罗盘”,标准化评测 Prompt 性能
2025-08-26
语音界Sora!微软刚开源新模型,一次生成90分钟语音、3200倍压缩率
2025-08-25
AI实战:我用锤子砸对了哪些钉子?| 沃垠AI一周年见面会
2025-08-25
比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!
2025-08-24
AI咨询手册:OpenAI如何建立AI的麦肯锡
2025-08-23
字节跳动Web Infra 团队 开发的一款开源的 AI 操作助手,GitHub 收获 9.9k Star
2025-07-23
2025-06-17
2025-08-20
2025-06-17
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-12
2025-07-29