目录
LLaMA模型结构:
模型微调手册:
推理示例:
指定位置加载模型 测试ok:
模型下载:
llama-stack 下载
modelscope 下载
LLaMA
优化技术
RMSNorm
SwiGLU 激活函数
旋转位置编码(RoPE)
llama3 结构详解-CSDN博客
大模型微调 LLaMA详细指南(准备环境、数据、配置微调参数+微调过程)_llama 微调-CSDN博客
FP16/BF16 | ≥ A6000 / RTX 6000 Ada / 3090 / 4090 | 48G or 24G 才能完整加载 |
INT8 | ≥ 24GB 显存 | 如 RTX 3090, 4090 |
INT4 | ≥ 10–14GB 显存 | 如 RTX 3080 / 4070 Ti / A5000 |
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3-8B"
pipeline = transformers.pipeline(
pipeline("Hey how are you doing today?")
显存占用10G左右,推理时长 2.56秒。
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch
# ① 本地模型文件夹
model_dir = r"E:\data\models\LLM-Research\Meta-Llama-3-8B-Instruct" # 例如 "./models/llama3-8b"
# ② 加载
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_dir, torch_dtype=torch.float16, # 视显存情况选择 fp16/bf16
load_in_4bit=True, trust_remote_code=True,
device_map="auto" # 自动把权重分在可用 GPU/CPU
)
# ③ 构建 pipeline
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
print(pipe("Hey, how are you doing today?", max_new_tokens=50)[0]["generated_text"])
print('----')
print(pipe("What's the capital of France?", max_new_tokens=20)[0]["generated_text"])
load_in_8bit 显存占用12G,推理速度5-7秒。
load_in_8bit=True, trust_remote_code=True,
pip install llama-stack
语法不对:
llama download --source meta --model-id "meta-llama/Meta-Llama-3-8B-Instruct"
pip install modelscope -U
modelscope download --model LLM-Research/Meta-Llama-3-8B-Instruct
LLaMA(Large Language Model Meta AI)的拼写误差,这是 Meta(原 Facebook)公司开发的开源大语言模型系列。以下是关于 **LLaMA 架构** 的详细解析:
**1. LLaMA 简介**
- **全称**:Large Language Model Meta AI
- **开发方**:Meta AI(Facebook)
- **特点**:开源、高效、覆盖多种参数量级(7B~70B),专为研究社区设计,性能对标 GPT-3 等商用模型。
**2. LLaMA 核心架构**
LLaMA 基于 **Transformer 解码器**(类似 GPT),但通过优化提升了效率和性能,关键改进包括:
**(1)基础结构**
- **自回归模型**:仅使用 Transformer 解码器堆叠,通过掩码注意力实现单向预测。
- **预训练目标**:基于大规模文本的生成任务(预测下一个词)。
替换 Layer Normalization,减少计算量。
替代 ReLU,提升模型表达能力。
动态处理序列位置信息,支持更长的上下文窗口。
- **分组查询注意力(GQA)**:在 LLaMA-2 中引入,平衡计算效率与效果。
**(3)模型规模**
| 版本 | 参数量 | 上下文长度 | 亮点 |
|------------|--------|------------|--------------------------|
| LLaMA-1 | 7B~65B | 2