我要投稿

Ollama 五月更新解读：多模态、工具调用、模型思考，AI 本地化再进一步！

发布日期：2025-06-07 12:52:55 浏览次数： 2867

作者：机器人小不

微信搜一搜，关注“机器人小不”

五月对于 Ollama 社区来说是激动人心的一个月！这个致力于让每个人都能轻松在本地运行强大AI模型的开源项目，在短短几周内接连发布了三项重大更新，极大地扩展了其功能和用户体验。如果你关注本地化 AI 的发展，或者已经是 Ollama 的忠实用户，那么这些新特性绝对不容错过。让我们一起来看看 Ollama 在这个五月都为我们带来了哪些惊喜。

首先，Ollama 推出了全新的多模态引擎，正式宣告支持视觉模型！这意味着，你现在可以在本地通过 Ollama 运行那些不仅能理解文本，还能“看见”和分析图像的模型了。

首批支持的明星模型包括：

Meta Llama 4
: 特别提到了其 1090 亿参数的混合专家模型 (MoE) Llama 4 Scout，能够对视频帧进行细致分析，甚至回答基于地理位置的问题。例如，你可以给它一张旧金山渡轮大厦的图片，问它看到了什么，它能准确描述钟楼、背景的海湾和远处的桥梁，还能告诉你从这里到斯坦福大学有多远，以及最佳交通方式。
Google Gemma 3
: 演示了其处理多张图片并理解它们之间关系的能力。比如，同时给它四张包含“羊驼”的图片，它能准确识别出共同的动物是羊驼，并能对其中一张羊驼和海豚拳击的搞笑图片进行分析。
Qwen 2.5 VL (通义千问)
: 展示了其强大的文档扫描和字符识别能力，例如准确识别支票上的文字信息，甚至能理解并翻译垂直书写的中文春联。
Mistral Small 3.1
等更多视觉模型。

为什么需要新引擎？

Ollama 此前主要依赖 ggml/llama.cpp 项目，专注于易用性和模型可移植性。但随着多模态模型的涌现，原有的架构在支持这些复杂模型时遇到了挑战。新引擎旨在：

提升可靠性和准确性
：通过模型模块化设计，每个模型都相对独立，减少了相互干扰，简化了模型集成。同时，新引擎能更准确地处理大图像产生的 token，并优化了图像的批处理和位置信息。
优化内存管理
：引入了图像缓存机制，并与硬件制造商合作优化内存预估和使用，针对不同模型的特性（如 Gemma 3 的滑动窗口注意力和 Llama 4 的分块注意力）进行KV缓存优化，从而在相同硬件上实现更长的上下文或更高的并发。
为未来奠定基础
：为未来支持语音、图像生成、视频生成、更长上下文以及更完善的工具支持打下坚实基础。

紧接着多模态引擎的发布，Ollama 又带来了一项实用性极强的功能：工具调用 (Tool Calling) 支持流式响应。

这意味着，当模型需要调用外部工具（如查询天气、执行代码、搜索网页）来回答你的问题时，它不必等工具完全执行完毕并返回所有结果后才开始响应。现在，模型可以一边调用工具，一边实时地将已经生成的内容流式地推送给你，同时在适当的时候插入工具调用的指令。

支持此功能的模型包括 Qwen 3, Devstral, Llama 3.1, Llama 4 等。

它是如何工作的？

Ollama 开发了一个新的增量解析器。这个解析器不再是简单地等待完整的 JSON 输出，而是能够：

用户可以通过 cURL、Python 或 JavaScript 库轻松使用这一功能。例如，你可以用 Python 定义一个加法函数，然后让模型调用这个函数来计算 “3+1”，模型会流式输出其“思考”过程（如果开启）并准确地调用你定义的函数。

此外，该更新还提到了模型上下文协议 (MCP) 对此功能的助益，并建议使用 32k 或更高的上下文窗口以提升工具调用的性能和结果。

五月的最后一份大礼是模型“思考” (Thinking) 功能的上线。用户现在可以选择启用或禁用模型的“思考”过程。

当“思考”功能启用时，模型的输出会将其思考过程和最终答案分开展示。这对于理解模型是如何一步步得出结论的非常有帮助，也能让开发者基于此设计出更有趣的应用，比如在游戏 NPC 对话前显示一个思考气泡。

当“思考”功能禁用时，模型会直接输出答案，这在追求快速响应的场景下非常有用。

支持此功能的模型包括 DeepSeek R1, Qwen 3 等。

如何使用？

CLI
: 可以通过 --think (启用) 或 --think=false (禁用) 参数控制。在交互式会话中，可以使用 /set think 或 /set nothink。还有一个 --hidethinking 参数，用于在启用思考但只显示最终答案的场景。
API
: /api/generate 和 /api/chat 接口新增了 think 参数 (true/false)。
Python/JavaScript 库
: 相应库已更新，支持在调用时传递 think 参数。