支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


本地部署大语言模型

发布日期:2025-05-14 03:27:08 浏览次数: 1514 作者:医信躬行社
推荐语

本地部署大语言模型的详细指南,ollama框架轻松实现。

核心内容:
1. 本地部署大语言模型的多种方式
2. ollama的下载与安装步骤
3. ollama命令列表及接口调用示例

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
Ollama%E9%83%A8%E7%BD%B2%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E3%80%82%22%7D%5D%7D%5D%2C%22attrs%22%3A%7B%7D%7D" source="https%3A%2F%2Fwww.yuque.com%2Fu46920707%2Fng9i3g%2Fksv7so1t8u59b75o%3FsingleDoc%23" data-pm-slice="0 0 []">

1. 部署方式

本地部署可以直接下载模型文件和源代码,打开安装包之后直接运行,也可以使用框架部署。

本次使用的是第二种,使用ollama部署大语言模型。

2. ollama下载

根据自己用的操作系统选择对应的ollama安装包,直接选择windows下载即可。

下载地址:

  • 官网下载链接:https://ollama.com/download/OllamaSetup.exe

    image.png

  • Github链接:https://github.com/ollama/ollama/releases

image.png

如果下载太慢可以使用代理网址https://github.akams.cn/

如果还是太慢可以选择迅雷下载,刚好一个G加速流量。

c447a565dbb7468dbce87b023799660d.png

3. 安装,准备工作

image.png

    1. Ctrl + Shift + Esc打开任务管理器。
    2. 切换到“性能”选项卡。
    3. 在左侧选择GPU(如果有多个显卡,会显示 GPU 0、GPU 1 等)。
    4. 在右侧的 “专用 GPU 内存” 中可以看到显存大小(例如 8.0 GB)。


去官网查看想要部署的模型:

 https://ollama.com/library

image.png


根据自己的显存大小选择适合的模型:

4. 具体操作

    1. 双击ollama运行程序,如果没反应是正常的
    2. 打开win+R 输入cmd或者右键后选择在终端打开
    3. 输入ollama list 如果有内容则表示安装完成

5. 命令列表

查看模型列表命令:ollama list 

运行命令如下:

运行模型命令:ollama run qwen2.5:0.5b ,其中qwen2.5:0.5b为要运行的大语言模型,如果本地没有则先拉取该模型。

拉取模型命令:ollama pull qwen2.5:0.5b 

删除模型命令:ollama rm qwen2.5:0.5b 

安装好模型后就可以进行提问了,提问如下图所示:

image.png

6. 调用接口

除了本地运行,ollama还支持接口调用,端口为11434。

image.png

image.png

API参考文档:https://ollama.cadn.net.cn/api.html

以下为示例:

import requestsimport json

class OllamaChat:    def __init__(self, model="qwen:7b", base_url="http://localhost:11434"):        self.model = model        self.base_url = base_url        self.session = requests.Session()        self.session.headers.update({"Content-Type""application/json"})
    def generate(self, prompt, stream=False, system_prompt=None):        """发送请求到Ollama API"""        data = {            "model": self.model,            "prompt": prompt,            "stream": stream,            "options": {"temperature"0.7}        }
        if system_prompt:            data["system"] = system_prompt
        try:            response = self.session.post(                f"{self.base_url}/api/generate",                data=json.dumps(data, ensure_ascii=False).encode('utf-8')            )            response.raise_for_status()            return response.json()        except requests.exceptions.RequestException as e:            print(f"请求出错: {e}")            return None
    def chat(self):        """交互式聊天"""        print(f"正在使用 {self.model} 模型(输入'退出'结束对话)")
        # 系统提示(强制中文回复)        system_msg = "你是一个AI助手,必须使用简体中文回答所有问题,回答应当详细专业"
        while True:            user_input = input("\n你: ")            if user_input.lower() in ['退出''exit''quit']:                break
            result = self.generate(                prompt=user_input,                system_prompt=system_msg            )
            if result and 'response' in result:                print(f"\nAI: {result['response']}")            else:                print("获取回复失败,请检查模型服务")

if __name__ == "__main__":    # 可替换为其他模型如 "llama3-chinese"、"qwen2.5:0.5b" 等    chat = OllamaChat(model="qwen2.5:0.5b")
    # 测试单次请求    test_response = chat.generate("用中文介绍你自己")    if test_response:        print("\n测试回复:", test_response.get('response''无回复'))
    # 启动交互聊天    chat.chat()
image.png

7. 最后

可以简单部署小型模型进行AI应用的开发,同时网上也有免费的API可调用,如glm-4-flash等,具体的操作还需自行学习,不懂的多问AI多查资料。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询