GGUF 格式的全名为(GPT-Generated Unified Format),提到 GGUF 就不得不提到它的前身 GGML(GPT-Generated Model Language)。GGML 是专门为了机器学习设计的张量库,最早可 以追溯到 2022/10。其目的是为了有一个单文件共享的格式,并 且易于在不同架构的 GPU 和 CPU 上进行推理。但在后续的开发 中,遇到了灵活性不足、相容性及难以维护的问题。
为什么要转换 GGUF 格式?
在传统的 Deep Learning Model 开发中大多使用 PyTorch 来进行开发,但因为在部署时会面临相依 Lirbrary 太多、版本管理的问题于才有了 GGML、GGMF、GGJT 等格式,而在开源社群不停的迭代后 GGUF 就诞生了。
GGUF 实际上是基于 GGJT 的格式进行优化的,并解决了 GGML 当初面临的问题,包括:
我们使用llamafactory 训练完模型我们这个时候存在一个base模型和训练的权重参数(LoAR秩)需要导出合并模型
将 base model 与训练好的 LoRA Adapter 合并成一个新的模型。注意:不要使用量化后的模型或 参数进行合并。
以下是 merge_llama3_lora_sft.yaml 的内容:
#model(基座模型)
model_name_or_path: /root/autodl-tmp/Llama3-8B/LLM-Research/Meta-Llama-3-8B-Instruct
#lora(自己训练的lora模型部分)
adapter_name_or_path: /root/autodl-tmp/LLaMA-Factory/saves/Llama-3-8B-Instruct/lora/train_2024-11-22-17-18-42
template: llama3
finetuning_type: lora
#export
export_dir: /root/autodl-tmp/Llama3-8B/LLM-Research/Meta-Llama-3-8B-Instruct-merged
export_size: 4
export_device: cuda
export_legacy_format: false
修改好配置文件 运行下面命令进行合并
llamafactory-cli export cust/merge_llama3_lora_sft.yaml
使用合并后的模型进行预测时,您不再需要加载 LoRA Adapter。
git clone https://github.com/ggerganov/llama.cpp.git
pip install -r llama.cpp/requirements.txt
# 如果不量化,保留模型的效果
python llama.cpp/convert_hf_to_gguf.py ./Meta-Llama-3-8B-Instruct --outtype f16 --verbose --outfile Meta-Llama-3-8B-Instruct-gguf.gguf
# 如果需要量化(加速并有损效果),直接执行下面脚本就可以
python llama.cpp/convert_hf_to_gguf.py ./Meta-Llama-3-8B-Instruct --outtype q8_0 --verbose --outfile Meta-Llama-3-8B-Instruct-gguf_q8_0.gguf
./Meta-Llama-3-8B-Instruct 导出模型的路径
Meta-Llama-3-8B-Instruct-gguf.gguf 转化之后的路径存放
这里--outtype
是输出类型,代表含义:
q2_k
:特定张量(Tensor)采用较高的精度设置,而其他的则保持基础级别。q3_k_l
、q3_k_m
、q3_k_s
:这些变体在不同张量上使用不同级别的精度,从而达到性能和效率的平衡。q4_0
:这是最初的量化方案,使用4位精度。q4_1
和q4_k_m
、q4_k_s
:这些提供了不同程度的准确性和推理速度,适合需要平衡资源使用的场景。q5_0
、q5_1
、q5_k_m
、q5_k_s
:这些版本在保证更高准确度的同时,会使用更多的资源并且推理速度较慢。q6_k
和q8_0
:这些提供了最高的精度,但是因为高资源消耗和慢速度,可能不适合所有用户。fp16
和f32
:不量化,保留原始精度。python llama.cpp/convert_hf_to_gguf.py \ # 运行转换脚本
./Meta-Llama-3-8B-Instruct \ # 输入模型路径
--outtype f16 \ # 输出浮点精度
--verbose \ # 显示详细日志
--outfile Meta-Llama-3-8B-Instruct-gguf.gguf.gguf # 输出文件名
关键参数说明
作用:llama.cpp 官方提供的转换脚本,用于将 Hugging Face 格式模型 → GGUF 格式。
路径要求:需确保 llama.cpp 仓库已克隆到当前目录,且脚本路径正确。
./Meta-Llama-3-8B-Instruct
这个一般是自己训练好的模型
输入模型路径:指向 Hugging Face 格式模型的目录,需包含:
pytorch_model.bin(模型权重)
config.json(模型配置)
tokenizer.model 或 tokenizer.json(分词器)
–outtype f16
浮点精度:指定输出权重的数值类型:
f16:半精度浮点数(默认,平衡精度与速度)
f32:全精度浮点数(更高精度,但文件更大)
q8_0:8 位量化(缩小文件体积,轻微精度损失)
日志模式:显示转换过程的详细信息(如层名称、进度条),便于调试。
输出文件名:指定生成的 GGUF 文件路径。
建议路径部分是 绝对路径
目标:将 Hugging Face 模型转换为可在 llama.cpp 中运行的格式。
适用场景:
在 CPU 或低显存 GPU 设备上运行大模型(GGUF 支持内存映射)。
需要量化模型以减小体积(如 4-bit/8-bit 量化)。
安装ollama 不在详细介绍
安装
curl -fsSL https://ollama.com/install.sh | sh
启动 ollama
ollam start
ollama serve
ollam run LLamas 具体的大模型名称
复制模型路径,创建名为“ModelFile”的meta文件,内容如下
#GGUF文件路径
FROM /root/autodl-tmp/Llama3-8B/LLM-Research/Meta-Llama-3-8B-Instruct-gguf8.gguf
使用ollama create命令创建自定义模型
ollama create llama-3-8B-Instruct --file ./ModeFile
llama-3-8B-Instruct 这个名字是自己创建的
ollama ls
ollama run llama-3-8B-Instruct
答案可以的
llamafactory-cli chat examples/inference/llama3_lora_sft.yaml
llamafactory-cli webchat examples/inference/llama3_lora_sft.yaml
llamafactory-cli api examples/inference/llama3_lora_sft.yaml
examples/inference/llama3_lora_sft.yaml内容如下:
model_name_or_path: /mnt/workspace/deepseeck/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
adapter_name_or_path: /mnt/workspace/LLaMA-Factory/saves/DeepSeek-R1-7B-Distill/lora/train_2025-04-28-20-42-03/adapter_config.json
template: deepseek3
infer_backend: huggingface # choices: [huggingface, vllm]
trust_remote_code: true