LLaMA 学习笔记

目录

LLaMA模型结构:

模型微调手册:

推理示例:

指定位置加载模型 测试ok:

模型下载:

llama-stack 下载

modelscope 下载

LLaMA

优化技术

RMSNorm

SwiGLU 激活函数

旋转位置编码(RoPE)


LLaMA模型结构:

llama3 结构详解-CSDN博客

模型微调手册:

大模型微调 LLaMA详细指南(准备环境、数据、配置微调参数+微调过程)_llama 微调-CSDN博客

显存占用:

FP16/BF16 A6000 / RTX 6000 Ada / 3090 / 4090 48G or 24G 才能完整加载
INT8 24GB 显存 如 RTX 3090, 4090
INT4 10–14GB 显存 如 RTX 3080 / 4070 Ti / A5000

推理示例:

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B"

pipeline = transformers.pipeline(
pipeline("Hey how are you doing today?")

指定位置加载模型 测试ok:

显存占用10G左右,推理时长 2.56秒。

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch
# ① 本地模型文件夹
model_dir = r"E:\data\models\LLM-Research\Meta-Llama-3-8B-Instruct"  # 例如 "./models/llama3-8b"

# ② 加载
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_dir, torch_dtype=torch.float16,  # 视显存情况选择 fp16/bf16
load_in_4bit=True, trust_remote_code=True,
    device_map="auto"  # 自动把权重分在可用 GPU/CPU
)

# ③ 构建 pipeline
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)

print(pipe("Hey, how are you doing today?", max_new_tokens=50)[0]["generated_text"])

print('----')
print(pipe("What's the capital of France?", max_new_tokens=20)[0]["generated_text"])

load_in_8bit 显存占用12G,推理速度5-7秒。
load_in_8bit=True, trust_remote_code=True,

模型下载:

llama-stack 下载

pip install llama-stack

语法不对:

llama download --source meta --model-id "meta-llama/Meta-Llama-3-8B-Instruct"

modelscope 下载

pip install modelscope -U

modelscope download --model LLM-Research/Meta-Llama-3-8B-Instruct

LLaMA

LLaMA(Large Language Model Meta AI)的拼写误差,这是 Meta(原 Facebook)公司开发的开源大语言模型系列。以下是关于 **LLaMA 架构** 的详细解析:

 **1. LLaMA 简介**
- **全称**:Large Language Model Meta AI  
- **开发方**:Meta AI(Facebook)  
- **特点**:开源、高效、覆盖多种参数量级(7B~70B),专为研究社区设计,性能对标 GPT-3 等商用模型。

 **2. LLaMA 核心架构**
LLaMA 基于 **Transformer 解码器**(类似 GPT),但通过优化提升了效率和性能,关键改进包括:

 **(1)基础结构**
- **自回归模型**:仅使用 Transformer 解码器堆叠,通过掩码注意力实现单向预测。
- **预训练目标**:基于大规模文本的生成任务(预测下一个词)。

优化技术

RMSNorm

替换 Layer Normalization,减少计算量。

SwiGLU 激活函数

替代 ReLU,提升模型表达能力。


旋转位置编码(RoPE)

动态处理序列位置信息,支持更长的上下文窗口。
- **分组查询注意力(GQA)**:在 LLaMA-2 中引入,平衡计算效率与效果。

 **(3)模型规模**
| 版本       | 参数量  | 上下文长度 | 亮点                     |
|------------|--------|------------|--------------------------|
| LLaMA-1    | 7B~65B | 2

你可能感兴趣的:(深度学习基础,人工智能,深度学习)