【llm对话系统】大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比

1. 引言

近年来,大型语言模型 (LLM) 取得了令人瞩目的进展,其中 Llama、Qwen 和 ChatGLM 是三个备受关注的开源模型。它们都在 Transformer 架构的基础上进行了改进和优化,并在各种 NLP 任务上取得了优异的性能。

本文将深入分析 Llama、Qwen 和 ChatGLM 的网络结构和训练方法,比较它们的异同以及各自的优势。

2. 模型结构对比

特性 Llama Qwen ChatGLM
基础架构 Decoder-only Decoder-only Encoder-Decoder (GLM架构,非传统意义)
预训练目标 Causal Language Modeling Causal Language Modeling Autoregressive Blank Infilling (自回归空格填充)
位置编码 Rotary Positional Embedding (RoPE) Rotary Positional Embedding (RoPE) 2D RoPE (二维位置编码,类似transformer-xl)
归一化 RMS Norm RMS Norm Layer Norm (Pre-Normalization)
激活函数 SwiGLU SwiGLU GeGLU
注意力机制 GQA (Grouped-Query Attention) GQA (Grouped-Query Attention), FlashAttention Multi-head Attention, FlashAttention (可选)
分词器 SentencePiece (BPE) Tiktoken (GPT-4 同款) SentencePiece (BPE)
最大序列长度 4k (Llama2), 可外推 32k (Qwen-72B), 可外推 2k (ChatGLM-6B), 8k (ChatGLM2-6B), 可外推
参数量 7B, 13B, 34B, 70B 1.8B, 7B, 14B, 72B 6B, 12B
特色 开源且性能强大 支持更长的上下文和多语言; 微调代码丰富 双语支持,针对中文优化,推理性能强

2.1 基础架构:Decoder-only vs. Encoder-Decoder (GLM)

  • Llama 和 Qwen 都采用了 Decoder-only 架构,这意味着它们只使用 Transformer 的解码器部分。Decoder-only 架构的模型擅长生成文本,因为它们在训练过程中只看到前面的 token,这与生成任务的自回归特性相符。
  • ChatGLM 基于 GLM (Gen

你可能感兴趣的:(llama,人工智能,AIGC,chatgpt,python)