我要投稿

AI大模型火热，将 Hugging Face大模型转换为 GGUF 为何受关注？

发布日期：2025-04-21 15:57:12 浏览次数： 2338

作者：AI悠悠

微信搜一搜，关注“AI悠悠”

GGUF到底是什么？

GGUF 是一种专为大语言模型设计的二进制文件存储格式，全称为 GPT - Generated Unified Format 。它是一种新型的文件格式，通常用于表示和存储神经网络模型及其相关数据。它是一种统一的、通用的图形格式，旨在简化不同深度学习框架和硬件平台之间的模型交换和转换。

GGUF 的主要目标是提供一个标准化的格式，使得神经网络的图结构、权重、参数以及其他相关信息可以在各种平台和工具之间顺利传递。它可以减少不同框架（如 TensorFlow、PyTorch 等）之间的互操作性问题，并帮助优化硬件资源的使用，特别是在多卡训练和分布式训练的场景下。

应用范围

框架支持：Huggingface Transformers、llama.cpp 等主流工具链均支持加载 GGUF 格式模型。
模型生态：谷歌 Gemma、阿里 Qwen 等官方发布的模型默认提供 GGUF 版本。
工具兼容：LM Studio，Ollama 等本地推理工具支持 GGUF 格式。

GGUF 格式的大模型具有以下优点

存储高效：通过优化数据结构和编码方式，显著减少了模型存储空间的占用。对于包含大量参数的大型模型来说，能有效降低存储成本。
加载快速：支持内存映射等技术，可直接从磁盘映射数据到内存地址空间，无需完全加载整个文件，加快了数据的加载速度，满足在线聊天机器人或实时翻译系统等对即时响应有要求的应用场景。
兼容性强：作为一种统一的格式，设计考虑了跨平台和跨框架的兼容性，能在不同的硬件和软件环境中无缝运行，使得模型可以在多种设备和框架中方便地使用，促进了大型模型的广泛应用。
扩展性好：采用键值对元数据结构，允许灵活扩展，能在不破坏与现有模型兼容性的情况下添加新的元数据、新特征或新信息，以适应未来更大规模模型和更复杂数据结构的发展需求。
量化支持：支持多种量化类型，如 Q8_K、Q6_K 等，通过降低模型精度减少文件大小，适用于不同硬件资源场景，在节省计算资源的同时，还能保证模型性能不受显著影响。
使用便捷：GGUF 文件自包含所有模型信息，如元数据、张量数据等，无需依赖外部文件或复杂配置，单文件即可轻松分发和加载，且加载模型所需的代码量少，无需外部库，简化了模型部署和共享的流程。

将 Hugging Face（HF）模型转换为 GGUF（Guanaco General Universal Format）格式，通常需要借助 llama.cpp 工具。

一、安装llama.cpp

1、下载llama.cpp源码到本地

首先，要把 llama.cpp 仓库克隆到本地，它包含了转换模型所需的工具。在终端里执行如下命令：

git clone https://github.com/ggerganov/llama.cpp.git

2、安装llama.cpp的python包

conda create -n llamacpp python==3.10 -yconda activate llamacpppip install -r llama.cpp/requirements.txt

llama

二、转化

可以对hf模型直接转gguf，不量化；也可以量化转。

#如果不量化，保留模型的效果#python llama.cpp/convert_hf_to_gguf.py 模型的绝对路径 --outtype f16 --verbose --outfile 输出的文件路径python llama.cpp/convert_hf_to_gguf.py /root/autodl-tmp/llm/Qwen/Qwen2.5-3B-Instruct-merge --outtype f16 --verbose --outfile /root/autodl-tmp/llm/Qwen/Qwen2.5-3B-Instruct-merge-gguf.gguf
#如果需要量化（加速并有损效果），直接执行下面脚本就可以python llama.cpp/convert_hf_to_gguf.py /root/autodl-tmp/llm/Qwen/Qwen2.5-3B-Instruct-merge --outtype q8_0 --verbose --outfile /root/autodl-tmp/llm/Qwen/Qwen2.5-3B-Instruct-merge-gguf_q8_0.gguf

这里--outtype是输出类型，代表含义：

q2_k：特定张量（Tensor）采用较高的精度设置，而其他的则保持基础级别。

q3_k_l、q3_k_m、q3_k_s：这些变体在不同张量上使用不同级别的精度，从而达到性能和效率的平衡。

q4_0：这是最初的量化方案，使用4位精度。

q4_1和q4_k_m、q4_k_s：这些提供了不同程度的准确性和推理速度，适合需要平衡资源使用的场景。

q5_0、q5_1、q5_k_m、q5_k_s：这些版本在保证更高准确度的同时，会使用更多的资源并且推理速度较慢。

q6_k和q8_0：这些提供了最高的精度，但是因为高资源消耗和慢速度，可能不适合所有用户。

fp16和f32:不量化，保留原始精度。

转换后的模型如下：

三、Ollama运行gguf

1、安装Ollama

Ollama官网：

https://ollama.com/download/linux

https://github.com/ollama/ollama/blob/main/docs/linux.md

我们选择ubuntu环境部署。

# autodl算力云学术加速# source /etc/network_turbo
# 安装ollamacurl -fsSL https://ollama.com/install.sh | sh

这个过程耗时较长，请耐心等待。也可以手动下载：

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgzsudo tar -C /usr -xzf ollama-linux-amd64.tgz

下载可以使用本地下载好后上传到服务器。

2、启动Ollama服务

ollama serve

注意这个命令窗口要一直开着。不然服务就断了。也可以使用后台执行方式。

3、创建ModelFile

复制模型路径，创建名为 “ModelFile” 的 meta 文件，内容如下

#GGUF文件路径FROM /root/autodl-tmp/llm/Qwen/Qwen2.5-3B-Instruct-merge-gguf.gguf

4、创建自定义模型

使用 ollama create命令创建自定义模型。模型名称可自定义，比如下面的“qwen2.5-3B-Instruct” 。名字要保证唯一。

ollama create qwen2.5-3B-Instruct --file  ModeFile

看到success就说明成功了。可以用命令 ollama list 查看。

5、运行模型

# 可以加上 :latest，也可以不加# ollama run qwen2.5-3B-Instruct:latestollama run qwen2.5-3B-Instruct

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-24

OpenClaw 全球最火的AI助手，到底是什么神仙？

2026-02-23

OpenClaw背后的英雄Pi-mono

2026-02-22

GLM-5 技术报告全解读｜a16z：“最好的开源模型”

2026-02-22

AI创业半年复盘：开源我踩过的坑。

2026-02-22

OpenClaw源码解读系列：自动回复管线

2026-02-22

OpenClaw源码解读系列：插件系统

2026-02-22

如何在Mac mini M4上为OpenClaw接入iMessage

2026-02-20

拆解 OpenViking：把 Agent 上下文从"向量碎片"变成"可操作文件系统"

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

给自己搭一个 AI 搭档：OpenClaw 安装使用全记录

2026-02-06

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

重磅开源！Kimi K2.5 本地部署全攻略：手把手教你跑通 1T MoE 巨兽

2026-01-30

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

2025-12-22

实测Kimi K2.5，这是一款厌丑的开源模型

2026-01-27

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

大家都在问

OpenClaw 全球最火的AI助手，到底是什么神仙？

2026-02-24

OpenClaw近一半用户来自中国，大家在FOMO什么？

2026-02-11

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

TranslateGemma-27B谷歌开源翻译模型有多强？

2026-01-20

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean