我要投稿

大模型量化实操--基于Qwen3-1.7B做int4量化

发布日期：2025-08-11 22:45:54 浏览次数： 2609

作者：阿铭linux

微信搜一搜，关注“阿铭linux”

大模型量化，就是将模型权重和激活从高精度（如 FP32， FP16）转换为低精度（如 INT8, INT4, FP8）。量化后的模型会显著减少尺寸大小、内存占用和带宽需求，提高计算速度（尤其是利用 INT8 Tensor Core）。

常见的量化方法有：GPTQ和AWQ，其中GPTQ量化速度快，推理性能好，支持Hugging Face生态，但需要校准数据集，对某些任务精度损失略大。AWQ精度通常比GPTQ更高，但量化过程稍慢，需要更多显存。

今天这篇文章，我将使用AWQ方法量化Qwen3-1.7B模型。

1）硬件要求：

GPU：至少16GB显存。
内存：32GB以上（用于加载模型和中间数据）。
磁盘：至少20GB可用空间（模型权重+中间文件）。

2）下载Qwen3-1.7B大模型

在modelscope社区下载大模型，首先安装魔搭(modelscope)模块

pip install modelscope下载模型

mkdir -p /models/modelscope download --model Qwen/Qwen3-1.7B --local_dir /models/Qwen3-1.7B4）AWQ量化软件环境（Ubuntu2204、AutoDL）

创建虚拟环境，若系统默认python版本为3.12，则无需创造虚拟环境conda create -n qwen_quant python=3.12conda activate qwen_quant安装PyTorchpip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128说明：注意cuda的版本，这个cu128指的是 12.8安装基础依赖pip install transformers==4.51.3 accelerate datasetsAWQ量化pip install autoawq autoawq-kernels

5）AWQ量化

下载数据集： https://github.com/Tencent/AngelSlim/blob/main/dataset/sharegpt_gpt4_qwen/sharegpt_gpt4-qwen3_a22B_output.jsonl

编辑量化脚本：

from awq import AutoAWQForCausalLMfrom transformers import AutoTokenizermodel_path = "/models/Qwen3-1.7B"quant_path = "/models/Qwen3-1.7B-AWQ"quant_config = {"zero_point": True, "q_group_size": 128, "w_bit": 4, "version": "GEMM"}# Load modelmodel = AutoAWQForCausalLM.from_pretrained(model_path)tokenizer = AutoTokenizer.from_pretrained(    model_path, trust_remote_code=True, device_map="auto", safetensors=True)# The pattern of data"""msg=[    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},    {"role": "user", "content": "Tell me who you are."},    {"role": "assistant", "content": "I am a large language model named Qwen..."}]data = []for msg in dataset:    print(msg)    text = tokenizer.apply_chat_template(msg, tokenize=False, add_generation_prompt=False)    data.append(text.strip())return data"""# !!!!!!!!!      Customize the code here for calib_data processing    !!!!!!!!!!!!!!def data_gen():    import json    data = []    with open("sharegpt_gpt4-qwen3_a22B_output.jsonl", "r", encoding="utf-8") as file:        for line in file:            msg = json.loads(line)["messages"]            text = tokenizer.apply_chat_template(                msg, tokenize=False, add_generation_prompt=False            )            data.append(text.strip())    return data# !!!!!!!!!      Customize the code here for calib_data processing    !!!!!!!!!!!!!!# Quantizemodel.quantize(    tokenizer,    quant_config=quant_config,    calib_data=data_gen(),    n_parallel_calib_samples=1,    max_calib_samples=256,    max_calib_seq_len=1024,)# Save quantized modelmodel.save_quantized(quant_path)tokenizer.save_pretrained(quant_path)print(f'Model is quantized and saved at "{quant_path}"')6）测试AWQ量化后的模型

脚本如下：

import torchfrom transformers import AutoModelForCausalLM, AutoTokenizer# 加载量化后的模型（以AWQ为例）model_path = "/models/Qwen3-1.7B-AWQ"tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)model = AutoModelForCausalLM.from_pretrained(    model_path,    device_map="auto",    trust_remote_code=True).eval()# 测试推理prompt = "你好，请介绍一下你自己。"inputs = tokenizer(prompt, return_tensors="pt").to(model.device)# 生成回答with torch.no_grad():    outputs = model.generate(        inputs.input_ids,        max_new_tokens=200,        do_sample=True,        temperature=0.7,        top_p=0.9,    )    response = tokenizer.decode(outputs[0], skip_special_tokens=True)print(response)最后介绍下我的大模型课：我的运维大模型课上线了，目前还是预售期，有很大优惠。AI越来越成熟了，大模型技术需求量也越来越多了，至少我觉得这个方向要比传统的后端开发、前端开发、测试、运维等方向的机会更大，而且一点都不卷！