GA琥珀

LLM系统性学习完全指南（初学者必看系列）

前言

这篇文章将系统性的讲解LLM（Large Language Models, LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐技术（如RLHF）、高效微调（如LoRA）、检索增强生成（RAG）以及智能体（Agents）等高级主题。最后，我们将审视该领域面临的严峻挑战，如偏见、安全性与幻觉，并展望其多模态与智能体化的未来。

第一部分：自然语言处理的基础概念

在我们深入探讨大型语言模型（LLM）的复杂世界之前，必须首先为其奠定坚实的理论基础。对LLM的真正理解，并非始于Transformer架构本身，而是源于那些使其成为可能的、更为根本的数学原理和经典机器学习概念。这一部分将为整个学习旅程构建不可或缺的基石。

模块一：`NLP`的基石 - 数学与机器学习原理

任何复杂的软件抽象，其底层都由简洁的数学规则所支配。LLM也不例外。尽管现代深度学习框架（如PyTorch和TensorFlow）极大地简化了模型的实现过程，但若要从使用者转变为能够理解、调试乃至创新的专家，就必须掌握其背后的数学语言和学习机制。

核心数学概念

线性代数：这是神经网络的通用语言。模型中的数据流动、信息转换，本质上都是通过向量和矩阵的运算来实现的。
- 向量（Vectors）与矩阵（Matrices） ：文本中的词元（tokens）被转换为高维向量（词嵌入），而神经网络的各层则由权重矩阵构成。
- 点积（Dot Products）与矩阵乘法（Matrix Multiplication） ：这些是神经网络中最核心的计算操作。例如，Transformer架构中的自注意力机制，其核心便是通过计算查询（Query）向量和键（Key）向量的点积来得到注意力分数。
微积分：这是模型学习和优化的引擎。
- 多变量导数（梯度, Gradients） ：为了让模型学习，我们需要衡量其预测与真实标签之间的误差（通过成本函数），并计算这个误差关于模型中每个参数（权重）的梯度。这个梯度指明了调整参数以减少误差的最快方向。
概率论与统计学：这是理解和评估语言模型的基础。
- 概率分布（Probability Distributions） ：语言模型的核心任务是预测下一个词的概率分布。给定一段上下文，模型会为词汇表中的每个词计算一个出现概率。
- 均值（Mean）与标准差（Standard Deviation） ：这些统计量在数据预处理、模型评估和结果分析中至关重要。

核心机器学习概念

神经网络（Neural Networks） ：这是构成LLM的基本结构单元。
- 神经元（Neurons）、层（Layers）、权重（Weights） ：数据（以向量形式）输入网络，流经由神经元组成的多个层。每个连接都有一个权重，模型学到的知识就存储在这些权重中。
- 激活函数（Activation Functions） ：如ReLU，它们为网络引入非线性，使得模型能够学习和表示复杂的模式，而不仅仅是线性关系。
神经网络的训练：这是一个迭代优化的过程，是所有学习发生的地方。
- 成本函数（Cost Functions） ：量化模型预测的错误程度。
- 反向传播（Backpropagation） ：一种高效计算成本函数关于网络中所有权重的梯度的算法。这是训练过程的核心，它将输出层的误差信号逐层“传播”回网络，以计算每个参数应如何调整。
- 梯度下降（Gradient Descent） ：一种优化算法，它利用反向传播计算出的梯度，小步地更新模型权重，以逐步最小化成本函数。
实践中的训练考量：
- 超参数调优（Hyperparameter Tuning） ：如学习率、批量大小等，这些参数控制着训练过程本身，需要仔细设定。
- 正则化（Regularization） ：如L2正则化和Dropout，这些技术用于防止模型“过拟合”，即过度记忆训练数据而丧失对新数据的泛化能力。
- 优化算法（Optimization Algorithms） ：如AdamW，它们是梯度下降的改进版本，能够更高效、更稳定地进行模型优化。

学习资源建议

要系统掌握这些基础知识，推荐学习吴恩达（Andrew Ng）在Coursera上开设的“深度学习专项课程”（Deep Learning Specialization），该课程详细讲解了上述所有核心概念。此外，斯坦福大学的CS224n课程（自然语言处理与深度学习）所列出的先修要求，也为学习者提供了衡量自身基础是否扎实的黄金标准。

掌握这些基础知识，是攀登LLM技术高峰的第一级阶梯。它将学习者从一个只能调用API的“使用者”，提升为一个能够洞察模型内部机制的“理解者”。当后续章节讨论“注意力分数”时，你会知道它本质上是向量点积；当讨论“权重矩阵”时，你会理解其线性代数的内涵；而当讨论“模型训练”时，你会明白其核心是梯度下降驱动的反向传播。这便是从纯粹数学到应用深度学习的第一次关键跃迁。

模块二：语言的表示 - 词嵌入

在计算机能够处理语言之前，必须先将离散的文字符号转化为机器能够理解的数学形式。这一转化的优劣，直接决定了模型理解能力的上限。

表示词语的挑战

早期的NLP方法，如独热编码（one-hot encoding），将每个词表示为一个长向量，其中只有一个维度为1，其余均为0。这种表示方法存在两个致命缺陷：首先，向量维度巨大，等于整个词汇表的大小，计算效率低下；其次，任意两个词的向量都是正交的，无法体现它们在语义上的任何关系。例如，“猫”和“狗”的独热编码之间的关系，与“猫”和“飞船”之间毫无二致。

向密集向量的转变

词嵌入（Word Embeddings）技术的出现彻底改变了这一局面。它将词语表示为低维度的、密集的浮点数向量。这些向量在一个多维空间中捕捉词语的语义信息，意义相近的词语在向量空间中的位置也相近。

关键算法

Word2Vec：由Google在2013年提出，是词嵌入领域的开创性工作。它包含两种主要的训练算法：
- Skip-gram：根据一个中心词，预测其周围的上下文词语。
- CBOW (Continuous Bag-of-Words)：根据上下文词语，预测中心的词语。通过这种预测任务，Word2Vec迫使模型学习到能够捕捉丰富语义和句法关系的词向量。
GloVe (Global Vectors for Word Representation) ：由斯坦福大学于2014年提出。GloVe结合了全局矩阵分解和局部上下文窗口方法的优点。它通过对整个语料库的词-词共现矩阵进行统计，来学习词向量，这使得它能够更有效地利用全局统计信息，生成高质量的词嵌入。

从Word2Vec到GloVe的演进，标志着NLP领域的一次根本性范式转移：从简单地将词语视为离散符号，转变为将它们表示为连续语义空间中的点。这一转变的深远意义在于，它首次允许我们对“意义”本身进行数学运算。著名的例子是 vector(‘king’) - vector(‘man’) + vector(‘woman’) 的结果在向量空间中非常接近 vector(‘queen’)。这证明了词嵌入不仅捕捉了相似性，还捕捉了词语之间的类比关系。

这是计算机从“计数词语”到“建模意义”的决定性一步。这种将语言向量化的能力，是所有后续神经网络模型（包括RNN和Transformer）能够处理和“理解”语言的绝对前提。没有高质量的词嵌入，再先进的模型架构也无从谈起。

模块三：序列的处理 - 循环神经网络 (`RNN`)

语言是序列数据，词语的顺序至关重要。理解了如何表示单个词语后，下一步便是如何处理由这些词语组成的序列。

序列模型的必要性

标准的前馈神经网络（Feedforward Neural Networks）在处理每个输入时是独立的，它们没有记忆。这使得它们无法处理像语言这样的序列数据，因为一个词的含义严重依赖于它之前的词。

循环神经网络 (RNN)

RNN通过引入“循环”结构来解决这个问题。在处理序列中的每个元素时，RNN不仅接收当前的输入，还会接收来自上一个时间步的隐藏状态（hidden state）。这个隐藏状态就像一个记忆单元，它会累积并传递序列中已经处理过的信息。理论上，这使得RNN能够根据前面的上下文来处理当前的词。

RNN的局限性与改进

梯度消失/爆炸问题（Vanishing/Exploding Gradient Problem） ：在实践中，标准RNN的记忆是短暂的。当序列很长时，通过反向传播传递的梯度会随着时间步的增加而指数级地减小（消失）或增大（爆炸）。梯度消失使得模型难以学习到序列中相距较远的词之间的依赖关系，即“长程依赖”。
长短期记忆网络 (LSTM) 与门控循环单元 (GRU) ：为了解决长程依赖问题，研究者们设计了更复杂的RNN变体。
- LSTM：引入了输入门、遗忘门和输出门三个“门控”机制，以及一个独立的细胞状态（cell state）。这些门控结构允许网络更有选择性地决定哪些信息应该被保留、哪些应该被遗忘、以及哪些应该被输出，从而极大地缓解了梯度消失问题。
- GRU：是LSTM的一个简化版本，它将遗忘门和输入门合并为一个“更新门”，并混合了细胞状态和隐藏状态。它的结构更简单，计算效率更高，但在许多任务上表现与LSTM相当。

编码器-解码器架构 (`Seq2Seq`)

对于像机器翻译这样的任务，输入序列和输出序列的长度可能不同。Seq2Seq架构应运而生。它由两个RNN（通常是LSTM或GRU）组成：

编码器（Encoder） ：读取整个输入序列（例如，一句英文），并将其压缩成一个固定大小的向量，称为“上下文向量”（context vector）。这个向量被认为是整个输入序列的语义摘要。
解码器（Decoder） ：接收编码器生成的上下文向量作为初始状态，然后逐个生成输出序列中的词语（例如，对应的法文翻译）。

然而，这种架构存在一个严重的问题，即信息瓶颈（Information Bottleneck） 。无论输入句子多长、多复杂，编码器都必须将其所有信息压缩到一个固定大小的上下文向量中。这不可避免地会导致信息丢失，特别是对于长句子，解码器很难仅凭这个摘要向量就回忆起句子开头的细节。

RNN的本质——一次处理一个词元，并依次传递隐藏状态——既是其捕捉序列顺序的优势，也是其致命的弱点。这种固有的**串行处理（serial processing）**机制使其无法在现代硬件上进行大规模并行计算，因为时间步 t 的计算必须等待时间步 t-1 完成。这导致RNN在处理LLM所需的海量数据集时效率极低。

信息瓶颈问题和串行计算的低效率，共同为一种全新架构的诞生创造了完美的条件。正是为了突破这两个核心限制，研究者们才提出了注意力机制，并最终催生了Transformer模型。可以说，RNN的局限性直接指明了通往下一代NLP模型的道路。

第二部分：`Transformer`革命

在RNN暴露出其在处理长序列和并行计算方面的根本性缺陷后，整个领域都在寻求一种新的范式。2017年，一篇名为《Attention Is All You Need》的论文横空出世，它所提出的Transformer架构彻底改变了NLP的格局。这一部分将深入解构这场革命的核心——注意力机制及其最终的架构实现。

模块四：核心创新 - 注意力机制

注意力机制（Attention Mechanism）并非随Transformer凭空出现，但Transformer将其提升到了前所未有的核心地位。它的基本思想非常直观，即模仿人类的认知过程：在处理信息时，我们会选择性地关注其中最相关的部分。

注意力机制的直观理解与演进

想象一位人类翻译员在翻译句子时，他不会将整个源语句记在脑中再开始翻译，而是在翻译每个目标词时，将注意力集中在源语句的几个相关词上。或者，当你被问及一张照片里有多少人时，你会自然地将注意力集中在人头上，而忽略背景中的其他细节。注意力机制就是让神经网络模型具备这种选择性聚焦的能力。

这一概念最早由Bahdanau等人在2015年引入，用于解决Seq2Seq模型中的信息瓶颈问题。他们没有让解码器仅仅依赖于一个固定的上下文向量，而是允许解码器在生成每个目标词时，都能“回顾”编码器处理过的所有输入词的隐藏状态。解码器会为每个输入词的隐藏状态计算一个“相关性分数”，然后根据这些分数对所有隐藏状态进行加权求和，形成一个动态的、针对当前解码步骤的上下文向量。这样，模型就能在需要时聚焦于输入序列的不同部分。

自注意力：突破性概念

Transformer的真正突破在于提出了自注意力（Self-Attention） 。它将注意力机制的应用范围从连接编码器和解码器，扩展到了处理单个序列内部。模型在编码句子中的某个词时，可以同时关注句子中的所有其他词，从而捕捉词语之间的内部依赖关系。例如，在处理句子“The cup is full, so I can’t add more water to it.”时，自注意力机制能够帮助模型理解代词“it”指代的是“the cup”，而不是“water”。这种能力让模型能够直接建立长距离依赖，而无需像RNN那样通过隐藏状态逐步传递信息。

缩放点积注意力的运作机制

自注意力机制的核心实现方式是缩放点积注意力（Scaled Dot-Product Attention） 。其背后的核心抽象是查询（Query, Q） 、键（Key, K）和值（Value, V） 1。这个比喻可以这样理解：

查询 (Query) ：代表当前正在处理的词元，它发出的“询问”，即“为了更好地理解我，我应该关注哪些词？”
键 (Key) ：代表序列中所有词元（包括自身）所携带的“标签”或“索引信息”，用于被查询。
值 (Value) ：代表序列中所有词元（包括自身）的实际内容或表示。

整个计算过程可以分解为以下几个步骤：

生成Q, K, V向量：对于输入序列中的每个词元嵌入向量，我们通过乘以三个独立且可学习的权重矩阵（W_Q, W_K, W_V），分别生成其对应的Q、K、V向量。这些向量的维度通常小于原始嵌入向量的维度。
计算注意力分数：为了确定当前词元（由其Q向量代表）应该对其他所有词元（由它们的K向量代表）投入多少注意力，我们计算该词元的Q向量与所有其他词元的K向量的点积。点积的结果越大，表示两个词元之间的相关性越强。
缩放：将上一步得到的所有分数除以K向量维度的平方根（例如，如果维度是64，就除以8）。这一步是为了在训练过程中保持梯度的稳定性，防止点积结果过大导致softmax函数进入梯度很小的区域。
Softmax归一化：对缩放后的分数应用Softmax函数。这会将分数转换成一组总和为1的概率值，即注意力权重。每个权重代表了在当前位置，应该给予序列中对应位置词元的关注度 1。
计算输出：将每个词元的V向量与其对应的注意力权重相乘，然后将所有加权后的V向量求和。这个加权和的结果，就是自注意力层为当前词元计算出的新表示。直观上，这个过程就是根据注意力权重，将最相关词元的信息（它们的V向量）汇集起来，形成一个更具上下文感知的新表示。

RNN的计算与时间步长是耦合的，处理一个长度为N的序列需要N个顺序步骤。而自注意力机制最伟大的创新在于，它通过一次大规模的矩阵运算，同时计算出序列中所有词元对之间的关系，完全不受它们在序列中距离的影响。一个词元与序列中任何其他词元（无论远近）的交互，都在一次计算中完成。

这种设计打破了序列长度与计算步骤之间的线性关系，使得整个过程可以被高度并行化。矩阵乘法是现代GPU等硬件最擅长的运算之一。因此，Transformer可以一次性处理整个序列，而不是像RNN那样必须循序渐-进。正是这种架构上的并行性，才使得在海量数据上训练拥有数百亿甚至数万亿参数的模型成为可能。可以说，注意力机制的计算效率是后续LLM规模化竞赛的根本技术前提。

模块五：《Attention Is All You Need》架构详解

在理解了自注意力机制的核心思想后，我们现在可以完整地解构2017年Vaswani等人提出的原始Transformer架构。该架构虽然最初是为机器翻译任务设计的，但其模块化的设计思想为后来的LLM发展奠定了基础 1。

高层结构：编码器-解码器堆栈

原始Transformer模型包含一个**编码器（Encoder）组件和一个解码器（Decoder）**组件。编码器负责处理输入序列（如源语言句子），解码器则负责生成输出序列（如目标语言句子）。这两个组件都不是单一的层，而是由多个相同的“块”（Block）堆叠而成，原论文中使用了6个编码器块和6个解码器块 1。

编码器堆栈（Encoder Stack）

每个编码器块都由两个主要的子层构成：一个多头自注意力层和一个位置前馈网络。

输入处理：在数据进入第一个编码器块之前，需要经过两个关键步骤：
1. 词元化与嵌入（Tokenization & Embedding） ：输入文本被分解为词元（tokens），每个词元通过一个嵌入层映射为一个固定维度的向量（例如512维）。
2. 位置编码（Positional Encoding） ：自注意力机制本身是位置无关的，它平等地看待序列中的所有词元，无法感知它们的顺序。为了让模型理解词序，必须显式地注入位置信息。原始论文提出了一种基于正弦和余弦函数的巧妙方法：为每个位置生成一个独特的、固定不变的位置编码向量，然后将其加到对应位置的词元嵌入上。这种方法不仅能表示绝对位置，还能让模型通过向量间的关系推断出相对位置。
编码器块内部结构：
1. 多头自注意力（Multi-Head Self-Attention） ：模型并非只进行一次自注意力计算，而是并行地运行多个“注意力头”（Attention Heads），例如8个。每个头都有自己独立的一套Q、K、V权重矩阵。这使得每个头可以学习关注输入序列中不同类型的关系（例如，一个头可能关注句法依赖，另一个头可能关注语义相似性）。所有头的输出向量会被拼接在一起，然后通过一个线性层投影回原始的维度，形成一个融合了多种上下文信息的综合表示 1。
2. 位置前馈网络（Position-wise Feed-Forward Network, FFN） ：注意力层的输出会经过一个简单的前馈神经网络。这个网络由两个线性层和一个ReLU激活函数组成，它被独立地应用于序列中的每一个位置（即每个词元的表示向量）。FFN为模型增加了非线性和额外的计算能力，进一步处理和转换注意力层输出的信息。
3. 残差连接与层归一化（Residual Connections & Layer Normalization） ：在每个子层（自注意力和FFN）的周围，都使用了一个残差连接（即将子层的输入直接加到其输出上），然后进行层归一化。这是深度学习中的标准技术，有助于缓解梯度消失问题，让梯度能够更顺畅地在深层网络中流动，从而稳定训练过程 1。

解码器堆栈（Decoder Stack）

解码器块的结构与编码器块类似，但有两处关键的不同，以适应其生成任务的特性。

掩码多头自注意力（Masked Multi-Head Self-Attention） ：解码器是“自回归”（autoregressive）的，即它一次生成一个输出词元，并将已生成的词元作为下一步的输入。在训练时，为了防止解码器“作弊”看到未来的、尚未生成的答案，需要对其自注意力机制进行修改。通过在计算注意力分数时应用一个“掩码”（mask），将未来位置的分数设置为负无穷大，这样在经过Softmax后，这些位置的注意力权重就变为0，确保了模型在预测位置 i 的词元时，只能关注位置 i 之前的词元 1。
编码器-解码器注意力（Encoder-Decoder Attention） ：这是解码器块中的第二个注意力层，也是连接编码器和解码器的桥梁。在这一层中，查询（Queries） 来自于解码器前一个子层的输出，而键（Keys）和值（Values） 则来自于整个编码器堆栈的最终输出。这一机制允许解码器在生成每个目标词元时，能够将注意力集中在输入源句子的最相关部分。例如，在翻译时，当要生成一个动词时，解码器可以通过这一层重点关注源句子中的主语和动词 1。

最终输出层

解码器堆栈的最终输出是一个浮点数向量序列。对于每个位置，其向量会经过一个最终的线性层，将其投影到一个维度等于整个词汇表大小的“logits”向量上。然后，一个Softmax层将这个logits向量转换为一个概率分布，其中每个元素代表对应词汇成为下一个输出词元的概率。概率最高的词元被选为该时间步的输出 1。

尽管Transformer最初是为机器翻译这一特定的序列到序列任务而设计的，但其编码器和解码器“块”本身是高度通用和模块化的信息处理单元。正是这种灵活性和模块化特性，使得后来的研究者能够将这些构件拆分和重组，用于完全不同的目的。

这一发现催生了现代LLM的两大谱系：

编码器-only模型（如BERT）：专注于利用编码器的深度双向上下文理解能力，进行语言理解任务。
解码器-only模型（如GPT系列）：专注于利用解码器的自回归生成能力，进行文本生成任务。

因此，《Attention Is All You Need》的真正遗产，并不仅仅是一个更优秀的翻译模型，而是创造了一种强大的、可插拔的计算模块——Transformer块。这个模块成为了整个现代LLM大厦的基石，其架构的解构与重组，直接定义了我们今天所知的LLM领域的基本格局。

第三部分：大型语言模型的黎明

Transformer架构的出现，为处理大规模文本数据提供了前所未有的并行计算能力。研究者们迅速意识到，可以通过极大地扩展模型规模和训练数据量，来释放其潜力。这一部分将追溯这一“规模化”思想的兴起，以及它如何催生了第一代真正意义上的大型语言模型，并揭示了它们令人惊叹的“涌现”能力。

模块六：预训练范式

在LLM时代之前，为每个NLP任务（如情感分析、命名实体识别）训练一个专门的模型是标准做法。这种方法需要为每个任务准备大量的标注数据，成本高昂且效率低下。预训练-微调（Pre-training and Fine-tuning）范式的出现，彻底改变了这一局面。

核心哲学：大规模自监督学习

预训练的核心思想是利用互联网上几乎无限的、未标注的文本数据，通过一种**自监督（self-supervised）**的任务来训练一个通用的、基础的语言模型。自监督学习意味着任务的“标签”可以从数据本身自动生成，无需人工标注。例如，在一段文本中随机挖掉一个词，然后让模型去预测这个被挖掉的词，原文中的词本身就是“标签”。

通过在数万亿词元的文本上完成这种简单的预测任务，模型被迫学习语言的深层结构，包括语法、语义、事实知识、推理模式乃至文化背景。这个过程完成后，我们就得到了一个强大的预训练模型。这个模型可以被视为一个知识渊博的“通才”，其学到的丰富语言表示可以被迁移到各种具体的下游任务中。

两种主流的预训练目标

根据自监督任务的设计，预训练模型主要分为两大类：

因果语言建模（Causal Language Modeling, CLM） ：这是自回归模型的预训练目标。任务是根据一个序列中前面的所有词元，来预测下一个词元。其数学形式可以表示为最大化概率 P(token_i | token_1,…, token_{i-1})。这种从左到右的单向预测方式，天然适合于文本生成任务，因此成为了GPT系列模型的核心训练目标。
掩码语言建模（Masked Language Modeling, MLM） ：这是双向模型的预训练目标。任务是在输入序列中随机“掩盖”（mask）掉一部分词元（通常是15%），然后让模型根据被掩盖词元的左右双向上下文来预测它。这种方式迫使模型学习对上下文的深度双向理解，因此非常适合于需要对整个句子有全面理解的自然语言理解（NLU）任务，如文本分类或问答。MLM是BERT模型的核心创新。

微调（Fine-tuning）

预训练完成后，进入第二阶段：微调。在这一阶段，我们将预训练模型的权重作为初始值，在一个规模小得多的、针对特定任务的有标注数据集上继续训练模型。例如，要进行情感分析，我们会用一个包含句子和其情感标签（正面/负面）的数据集来微调模型。由于模型已经具备了强大的通用语言能力，它只需要很少的标注数据和训练步骤就能迅速适应新任务，并达到很高的性能。

预训练过程远不止是学习语法规则，它更像是一种大规模的、无监督的知识压缩。当模型被迫在数万亿词元的文本中反复预测缺失或未来的词语时，它实际上是将这些文本中蕴含的海量事实知识、逻辑关系和文化背景，隐式地编码到了其数十亿甚至数万亿的参数（权重）之中。

这种“知识”并非以结构化的形式存储，而是体现在词元之间复杂的统计关系中。例如，为了能够准确地在“法国的首都是”这样的句子中预测出“巴黎”，模型必须在训练中学习到“法国”、“首都”和“巴黎”这三者之间的强关联。当这个过程在无数主题上重复数十亿次后，模型的参数就成为了其训练数据中所含知识的一个高度压缩的分布式表示。

这解释了为什么预训练模型能够如此轻松地迁移到众多下游任务中——它们并非从零开始，而是站在一个包含了丰富世界知识的坚实基础上。这也同样解释了为什么模型会不可避免地继承训练数据中的偏见和错误信息，因为这些也是被一并“压缩”进去的知识的一部分。

模块七：奠基性LLM - BERT与GPT-2

预训练范式确立后，两个基于Transformer架构的里程碑式模型——BERT和GPT-2——在2018至2019年相继发布。它们分别选择了不同的预训练路径，从而开创了现代LLM的两大技术谱系。

BERT：来自Transformer的双向编码器表示 (2018)

架构：BERT（Bidirectional Encoder Representations from Transformers）创造性地只使用了Transformer的**编码器（Encoder）**堆栈。它的目标不是生成文本，而是为输入的文本生成高质量的、富含上下文信息的表示（嵌入）。
双向性：BERT的核心贡献在于其“深度双向”特性。传统的语言模型（包括早期的GPT）都是单向的（从左到右）。而BERT通过其独特的掩码语言模型（MLM）预训练任务，使得模型在处理一个词时，能够同时利用其左侧和右侧的所有上下文信息。这种双向性贯穿了模型的所有层，使其能够构建出比单向模型深刻得多的语境理解。
预训练任务：
1. 掩码语言模型 (MLM) ：如前所述，随机掩盖输入序列中15%的词元，让模型根据上下文进行预测。
2. 下一句预测 (NSP) ：模型接收两个句子A和B，并需要判断句子B是否是句子A在原文中的真实下一句。这个任务旨在让模型学习句子间的关系，以更好地支持问答（QA）和自然语言推断（NLI）等下游任务。
影响：BERT的发布在NLP界引起了巨大轰动。它在包括GLUE和SQuAD在内的11项NLU基准测试中刷新了当时的最佳纪录，并迅速确立了“预训练-微调”作为NLP任务的主流范式。

GPT-2：语言模型是无监督多任务学习者 (2019)

架构：与BERT相反，GPT-2（Generative Pre-trained Transformer 2）只使用了Transformer的**解码器（Decoder）**堆栈，并采用掩码自注意力机制进行自回归生成。
规模与涌现能力：GPT-2是其前身GPT-1的直接放大版，参数量从1.17亿增加到15亿。其最重要的发现是，当一个纯粹的、以“预测下一个词”为目标的生成式模型，在规模和数据量（在一个40GB的高质量网络文本数据集上训练）达到一定程度后，会“涌现”出在多种NLP任务上的**零样本（zero-shot）**学习能力。这意味着，无需任何针对性的微调，仅仅通过设计巧妙的提示（prompt），GPT-2就能执行翻译、摘要、问答等任务 3。
影响：GPT-2的成果揭示了一个深刻的道理：一个足够强大的生成模型，其简单的“下一个词预测”目标内在地包含了完成许多复杂任务的潜力。它将研究界的焦点从纯粹的理解任务部分转移到了大规模生成模型及其提示能力上。OpenAI最初因担心被恶意利用而选择不发布完整的15亿参数模型，这一决定也引发了关于AI安全和负责任发布的广泛公共讨论。

BERT和GPT-2的出现，标志着LLM发展道路上的一次**“大分流”**。它们分别代表了自2018年以来LLM发展的两条核心技术路线：

BERT的编码器-only路线，优化目标是理解与表示。它擅长生成文本的深度、双向上下文嵌入，非常适合作为分析型任务（如文本分类、命名实体识别、信息检索）的强大特征提取器。
GPT的解码器-only路线，优化目标是生成与预测。它通过自回归的方式逐词生成文本，是所有现代对话式AI和内容创作应用的基础。

这种架构上的分歧，是它们各自预训练目标（MLM vs. CLM）的直接结果，反映了一个根本性的权衡：是选择深度双向性以求得最佳的理解，还是选择自回归机制以实现流畅的生成。今天我们看到的大多数知名LLM，从Llama到Gemini，都沿袭了GPT开创的这条生成式、解码器-only的技术路径。

模块八：规模与能力的飞跃 - GPT-3

如果说GPT-2让人们瞥见了规模化的潜力，那么GPT-3则以无可辩驳的性能，向世界宣告了一个新时代的到来。它不仅是参数量的又一次巨大飞跃，更重要的是，它揭示了一种全新的与模型交互的范式。

“语言模型是少样本学习者” (2020)

这是GPT-3论文的核心论点 4。它指出，随着模型规模的急剧增大，模型可以在不进行任何权重更新（即微调）的情况下，仅通过在提示中提供少量任务示例，就能学会并执行新任务。

前所未有的规模

GPT-3的参数量达到了1750亿，是GPT-2的100多倍。这一巨大的规模是其展现出新能力的关键前提。

上下文学习（In-Context Learning, ICL）：新范式

GPT-3最重大的贡献是展示了强大的上下文学习能力。这是一种在**推理时（inference time）**发生的“学习”，与通过梯度下降更新模型权重的“训练时”学习完全不同。模型通过分析提示中给出的几个示例，当场“领悟”任务的模式，并将其应用到新的输入上 5。ICL主要有以下几种形式：

零样本（Zero-shot） ：不给模型任何示例，只用自然语言描述任务。例如：“将下面的英文翻译成法文：‘Hello, world.’”。这种方式最便捷，但也最考验模型的泛化能力 4。
单样本（One-shot） ：在提示中给出一个完整的示例。例如：“将英文翻译成法文：sea otter => loutre de mer。cheese => ”。这为模型提供了更明确的任务格式和期望输出的线索 4。
少样本（Few-shot） ：在提示中给出多个示例（通常是2到几十个，受限于模型的上下文窗口大小）。这是ICL最强大的形式，通过更多的例子，模型能更准确地把握任务的细节和模式 4。

涌现能力（Emergent Ability）

上下文学习被认为是一种涌现能力，即这种能力在小模型上并不存在或非常微弱，只有当模型规模和训练数据量跨过某个阈值后，才会突然显现出来并随着规模的增大而显著增强。

影响

GPT-3的发布从根本上改变了人们与LLM的交互方式。它催生了“提示工程”（Prompt Engineering）这一新领域，表明一个单一的、巨大的基础模型可以作为一个通用的“少样本学习者”，灵活地适应无数种任务，而无需为每个任务都进行昂贵的重新训练。这为LLM作为一种可供调用的“基础服务”铺平了道路。

GPT-3所展示的上下文学习能力，标志着一种从“软件1.0”到“软件2.0”的深刻转变。在传统的“软件1.0”范式中，人类开发者通过编写显式的、基于规则和逻辑的代码来构建程序。而在“软件2.0”的世界里，开发者则通过提供数据和示例（在LLM的场景下，就是通过提示）来定义期望的行为，而模型则通过其学到的通用能力来“编写”实现这一行为的具体逻辑。

在GPT-3之前，让模型执行一个新任务，标准流程是收集一个标注数据集，然后对模型进行微调，这依然是传统的机器学习开发循环。GPT-3证明了，对于许多任务，我们根本不需要改变模型本身，只需要改变给它的输入——也就是提示 4。在提示中提供示例（少样本学习），就如同在编程问题中给出输入输出的测试用例，模型会从这些用例中归纳出解决新实例的“算法”。

这意味着，应用开发的重心从调整模型权重，转移到了设计和优化提示内容上。这是一种颠覆性的变化，它使得AI应用的开发变得更快、更灵活、门槛也更低，极大地加速了AI技术的普及和创新。

第四部分：对齐、优化与开源

拥有一个强大的基础模型只是第一步。原始的预训练模型如同拥有渊博知识但未经社会化的天才，其行为可能难以预测，甚至有害。这一部分将探讨如何通过“对齐”技术，将这些模型塑造得更安全、更有用。同时，我们也将见证开源社区的崛起，它如何与闭源巨头形成互补，共同推动着LLM生态的繁荣。

模块九：模型与人类意图的对齐 - InstructGPT与RLHF

对齐问题（The Alignment Problem）

预训练LLM的目标是预测下一个词，这使得它们擅长生成连贯的文本，但并不保证这些文本是有帮助的（helpful） 、诚实的（honest）和无害的（harmless） 。当用户提出一个问题时，一个未经对齐的模型可能会生成一个听起来合理但实际上是错误的答案，或者生成有毒、带偏见的内容，因为它只关心统计上的可能性，而非用户的真实意图。

InstructGPT (2022)：通往ChatGPT之路

InstructGPT是OpenAI在ChatGPT之前发布的一项关键研究，它系统性地解决了对齐问题。其核心贡献是证明了一套行之有效的方法，可以将LLM的行为与用户的指令和偏好对齐。惊人的是，经过对齐后，一个仅有13亿参数的InstructGPT模型，在人类评估者的偏好打分中，竟然超过了未经对齐的、拥有1750亿参数的GPT-3基础模型。这表明，对齐是一种与模型规模相对独立的、能够显著提升模型实用性的关键技术 6。

基于人类反馈的强化学习（RLHF）：三步法

RLHF是实现对齐的核心技术，它巧妙地将人类的判断力融入到模型的训练循环中。该过程主要分为三个步骤：

第一步：监督微调（Supervised Fine-Tuning, SFT）
- 目标：教会模型基本的指令遵循格式和风格。
- 过程：首先，雇佣一批高质量的人类标注员，让他们针对各种类型的提示（prompt）编写高质量的、示范性的回答。这样就构成了一个（提示，回答）对的数据集。然后，使用这个数据集对预训练好的基础LLM进行标准的监督式微调。经过这一步，模型学会了如何以一种对话或问答的形式来回应用户的输入，而不是仅仅续写文本。
第二步：训练奖励模型（Reward Model, RM）
- 目标：创建一个能够模仿人类偏好的“裁判”模型。
- 过程：从SFT模型中，针对同一个提示，生成多个不同的回答（例如4到9个）。然后，让人类标注员对这些回答进行排序，从最好到最差。这些排序数据被用来训练一个独立的“奖励模型”。奖励模型的输入是一个（提示，回答）对，输出则是一个标量分数，代表了这个回答有多符合人类的偏好。通过学习大量的排序数据，奖励模型学会了预测人类会给哪个回答打更高的分 7。
第三步：使用强化学习（PPO）优化LLM
- 目标：利用奖励模型作为指导，进一步优化SFT模型的行为，使其生成能获得更高奖励分数的回答。
- 过程：将SFT模型作为强化学习中的“策略（policy）”。在一个RL循环中，从一个提示数据集中随机抽取一个提示，让SFT模型生成一个回答。然后，用上一步训练好的奖励模型（RM）来为这个回答打分（即“奖励”）。最后，使用一种名为**近端策略优化（Proximal Policy Optimization, PPO）**的强化学习算法，根据这个奖励信号来更新SFT模型的权重，目标是最大化奖励模型给出的分数。
- 为了防止模型为了追求高分而生成奇怪的、偏离正常语言模式的文本（即“奖励 hacking”），PPO的目标函数中还加入了一项KL散度惩罚。该惩罚项衡量了当前模型与原始SFT模型输出分布的差异，确保模型在学习取悦奖励模型的同时，不会离其最初学到的良好语言基础太远 8。

RLHF的成功，尤其是PPO的应用，是使ChatGPT这类对话式AI变得实用、可靠并能大规模面向公众部署的关键技术突破。它将模型原始的、强大的预测能力，转化为了可控的、有益的、与人类价值观对齐的行为。

RLHF的成功揭示了一个深刻的工程洞见：构建一个能力强大的模型（通过预训练）和构建一个行为良好的模型（通过对齐）这两个目标，在很大程度上是可以解耦的。这意味着开发者可以首先集中资源进行大规模预训练，以追求模型能力的极限，然后再将这个强大的基础模型，通过一个相对独立的、成本低得多的对齐流程，来塑造其最终的行为模式。

这一解耦策略在经济和技术上都极为高效。它使得耗资巨大的预训练可以成为一次性的基础投资，而成本较低的对齐过程则可以被反复迭代、调整，以适应不同的应用场景或安全标准。InstructGPT的论文结果——一个小的对齐模型胜过一个大的未对齐模型——雄辩地证明了“对齐”本身是一种独立于原始“能力”的关键品质。

模块十：开源运动的兴起

在OpenAI等公司以闭源模型引领技术前沿的同时，一股强大的开源浪潮也在同步兴起，极大地推动了LLM技术的民主化和创新。

开源模型的崛起

自2023年以来，发布强大的、权重公开的（open-weight）模型成为了一大趋势。这些模型虽然在许可证上可能存在商业使用的限制，但其模型权重对研究者和开发者开放，允许社区进行微调、实验和部署。

关键模型家族

Llama 2 (Meta, 2023) ：Llama 2的发布是开源AI领域的一个里程碑事件。Meta发布了一系列高质量的模型（参数规模从70亿到700亿），并首次允许其用于商业用途。更重要的是，他们还发布了使用RLHF对齐过的Llama 2-Chat版本。这为整个社区提供了一个强大的、可与GPT-3.5等闭源模型相媲美的开源替代品，极大地激发了开源生态的活力。
其他著名模型：为了展示生态的丰富性，还应提及其他重要的开源模型系列，如阿布扎比技术创新研究所的Falcon系列、法国初创公司Mistral AI发布的性能卓越的Mistral和Mixtral模型，以及谷歌发布的轻量级Gemma模型系列。这些模型的出现为开发者提供了多样化的选择。

Hugging Face生态系统

Hugging Face已成为事实上的“AI领域的GitHub”，是开源LLM生态的中心枢纽。

模型中心（Model Hub） ：一个集中的代码仓库，托管了成千上万个由社区和企业共享的模型权重。开发者可以在这里轻松找到、下载和使用各种预训练及微调好的模型。
Transformers库：一个提供了加载和使用这些模型的标准化接口的Python库，已成为业界标准 9。
Datasets & Tokenizers库：提供了处理数据集和文本词元化的基础工具，是模型训练和推理流程中的关键组件 9。

排行榜（Leaderboards）

随着开源模型的井喷，如何客观评价它们的性能成为了一个新问题。各种社区驱动的排行榜应运而生，例如Hugging Face的Open LLM Leaderboard和LMSYS的Chatbot Arena。前者通过一系列标准化基准测试来评估模型，后者则通过匿名的、成对比较的方式，让用户投票选出他们更偏爱的模型回答，从而得出一个基于人类偏好的排名。这些排行榜为社区追踪和比较模型性能提供了重要的参考。

当下的LLM领域并非一场简单的单向竞赛，而是演变成了一个充满活力的**“两极”生态系统**。一极是以OpenAI、Google、Anthropic为代表的闭源巨头，它们凭借巨大的资源优势，不断推动着模型能力的绝对前沿，开创新的技术范式（如GPT-4的多模态能力）。另一极则是蓬勃发展的开源社区。当闭源模型取得突破后，开源社区会迅速跟进，通过复现、解构和改进这些技术，将上一代的前沿技术大众化、商品化。

这个过程形成了一种奇特的共生关系：闭源实验室的突破为开源社区指明了方向，而开源社区的快速跟进和广泛应用，又反过来迫使闭源实验室必须不断创新以保持领先。例如，GPT-3开创了大规模上下文学习，不久后Meta发布的Llama就达到了类似的性能，使得整个社区都能在此基础上进行实验。斯坦福大学的Alpaca项目进一步证明，仅用几百美元的成本，就能通过指令微调让Llama模型模仿出昂贵的InstructGPT的行为。这种“闭源探索、开源普及”的循环，极大地加速了整个领域的迭代速度。

表1：主流开源与闭源模型对比

为了帮助学习者建立对当前模型格局的直观认识，下表对比了一些代表性的开源和闭源模型。这张表格提供了在选择项目基础模型时所需的关键信息，直观地展示了AI世界“两极”的代表作。

模型名称 (Model Name)	开发者 (Developer)	参数规模 (Parameters)	上下文长度 (Context Length)	关键特性 (Key Features)	许可证 (License)
GPT-4o	OpenAI	未公开 (Proprietary)	128k tokens	顶尖性能, 深度多模态 (文本, 图像, 音频)	商业API (Proprietary)
Llama 3.1 405B	Meta	405B	128k tokens	顶尖开源性能, 强大的代码生成	Llama 3 License
Gemini 2.5 Pro	Google	未公开 (Proprietary)	1M tokens	超长上下文, 原生多模态, 深度集成谷歌生态	商业API (Proprietary)
Claude 3.7 Sonnet	Anthropic	未公开 (Proprietary)	200k tokens	强大的推理能力, 专注于企业级应用和安全性	商业API (Proprietary)
Mistral Large 2	Mistral AI	未公开 (Proprietary)	128k tokens	高性价比, 强大的多语言能力	商业API (Proprietary)
Qwen2 72B	Alibaba	72B	128k tokens	强大的中英文能力, 开源	Apache 2.0
Nemotron-4 340B	Nvidia	340B	128k tokens	为生成高质量合成数据进行训练而优化	Nemotron-4 License

数据来源:

模块十一：多模态前沿 - GPT-4与Gemini

在文本处理能力日趋成熟之后，LLM的发展迎来了下一个重要的演进方向：从单一的文本模态，走向能够同时理解和处理多种信息类型的多模态（multimodality） 。

超越文本

人类通过多种感官（视觉、听觉、触觉）来感知和理解世界。纯文本模型的能力因此受到限制，它们的“知识”是漂浮的、非具身的。多模态模型旨在通过整合图像、音频、视频等信息，让LLM更接近人类的认知方式。

GPT-4 (OpenAI, 2023)

关键能力：GPT-4是第一个被广泛应用的大型多模态模型。它能够接受图像和文本的混合输入，并生成纯文本输出。用户可以向它提出关于一张图片的问题，或者让它解释图表、分析网页截图 10。
性能飞跃：除了多模态能力，GPT-4在纯文本任务上的性能也比其前身GPT-3.5有了质的飞跃。它在多项专业和学术基准测试中表现出色，例如，它通过了模拟的律师资格考试，并且成绩位于前10%的顶尖水平，而GPT-3.5的成绩则在后10%。这证明了持续的规模化扩展，依然能带来推理和知识能力的显著提升 10。

Gemini (Google, 2023)

“原生多模态” ：Google在发布Gemini时，特别强调其是“从头开始构建的原生多模态模型”。这意味着Gemini在预训练阶段就同时学习了文本、图像、音频、视频等多种数据类型，而不是在训练好的文本模型之上“嫁接”视觉能力。理论上，这种原生设计能让模型更无缝、更深入地理解和融合跨模态的信息 11。
模型家族：为了适应不同的应用场景，Gemini被设计成一个模型家族：
- Ultra：规模最大、能力最强的模型，用于挑战最先进的性能基准。
- Pro：性能和成本之间的最佳平衡点，适用于广泛的、可扩展的应用。
- Nano：最高效的模型，设计用于在手机等终端设备上本地运行 11。

影响

多模态能力的加入，极大地扩展了LLM的应用场景。它们现在可以分析图表、理解UI、描述图片内容，这使得它们在教育、软件开发、数据分析等领域有了全新的用武之地。这标志着LLM正在从一个纯粹的“语言”模型，向一个更通用的“世界”模型演进。

纯文本LLM的一个根本局限是，它们的“理解”是非具身的（ungrounded） 。它们对“猫”这个词的知识，完全来自于这个词与其他词在文本中的统计关联，而与现实世界中真实的猫无关。这种知识的悬浮状态，是导致模型产生“幻觉”的重要原因之一。

多模态，特别是视觉能力的引入，是解决语言“具身化”问题的第一步。一个能够同时看到一只猫的图片并读到“猫”这个词的模型，相比于一个只能处理文字的模型，其对“猫”这个概念的表征无疑是更丰富、更扎实的。当模型能够将“一个蓝色的15针连接器”这段文字描述，与一张VGA插头的图片建立起联系时，它的知识就不再是纯粹的符号游戏，而是开始与感知世界的现实相锚定。

因此，多模态不仅仅是增加了一个新功能，它是一条通往更鲁棒、更不易出错、对世界有更深刻理解的AI的必经之路。通过将语言与感知信息联系起来，多模态技术有望从根本上缓解LLM的一些核心缺陷。

第五部分：先进技术与应用

在掌握了基础模型的构建和对齐方法之后，学习的重心便转向了如何基于这些模型来构建复杂、高效且功能强大的现实世界应用。这一部分将介绍一系列先进的技术和框架，它们是现代LLM应用开发的标准工具箱。

模块十二：高效模型适配 - PEFT与LoRA

完全微调（Full Fine-Tuning）的问题

随着模型参数达到数十亿甚至更多，对整个模型进行微调（即更新所有参数）变得越来越不切实际。这不仅需要巨大的计算资源和显存（VRAM），而且每针对一个新任务进行微调，都会产生一个与原始模型同样大小的、全新的模型副本，这在存储和部署上都造成了巨大的负担。

参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）

PEFT是一系列技术的总称，旨在解决完全微调的上述问题。其核心思想是：在微调过程中，冻结预训练模型绝大部分的原始权重，只训练一小部分新增的或指定的参数。这样，既能使模型适应新任务，又能极大地降低计算和存储成本。

关键PEFT技术

适配器层（Adapter Layers） ：这是一种早期的PEFT方法。它在预训练模型的Transformer块之间插入一些小型的、新增的神经网络模块（称为“适配器”）。微调时，只训练这些适配器的参数，而原始模型保持不变。
提示调优（Prompt Tuning / Prefix Tuning） ：这类方法甚至不改变模型内部的任何权重。它通过学习一个小的、可训练的向量序列（称为“软提示”或“前缀”），并将其拼接到输入嵌入的前面。模型在处理任务时，学会将这个软提示解释为执行特定任务的指令。
LoRA（Low-Rank Adaptation）：低秩适配：这是目前最流行和最成功的PEFT方法。
- 核心思想：LoRA基于一个关键的实证观察和假设：在模型微调过程中，权重的变化量（ΔW）具有“低内在秩”（low intrinsic rank）。这意味着这个巨大的变化矩阵，可以用两个小得多的矩阵的乘积来近似表示。
- 工作机制：对于模型中的一个权重矩阵 W（例如自注意力层中的Q、K、V投影矩阵），LoRA并不直接更新 W。它将 W 冻结，并额外学习两个低秩矩阵 A 和 B，使得 ΔW = B * A。在正向传播时，模型的输出 h 变为 h = Wx + BAx。由于 A 和 B 的维度远小于 W，需要训练的参数量被急剧减少。
- 核心优势：LoRA不仅将可训练参数的数量减少了数千甚至上万倍，显著降低了显存需求，而且它还有一个独特的优势：在推理时，学习到的低秩矩阵 BA 可以被直接合并到原始权重矩阵 W 中（W_new = W + BA）。这意味着，经过LoRA微调后的模型，在推理时与原始模型相比，没有任何额外的计算延迟。这一点是其优于适配器等方法的重要原因 12。

PEFT，特别是LoRA的出现，从根本上改变了模型定制的经济学和实践模式。它使得个人开发者和中小型企业也能够负担得起为单个大型基础模型，创建成百上千个高度专业化的“技能适配器”。

这种模式催生了一种新的AI系统架构：一个强大的通用基础模型可以被动态地、即时地装备上不同的LoRA适配器来执行不同的任务。例如，一个部署好的Llama 3 70B模型实例，可以通过在处理请求时加载相应的LoRA权重，来同时服务于法律文书起草、医疗记录摘要、代码生成等多种完全不同的微调任务。

这使得模型微调从一个沉重的、静态的、一次性的过程，转变为一个轻量级的、动态的、可组合的过程。它是实现大规模、个性化、专业化AI服务的关键赋能技术。

模块十三：用外部知识增强LLM - 检索增强生成 (RAG)

尽管LLM在其参数中压缩了海量知识，但它们仍然面临三个无法回避的核心问题：

幻觉（Hallucination） ：模型可能会自信地编造事实。
知识截止（Knowledge Cutoff） ：模型的知识是静态的，停留在其训练数据收集的截止日期，对之后发生的新事件一无所知。
缺乏透明度（Lack of Transparency） ：当模型给出一个事实性回答时，我们无法追溯其信息来源，也就无法验证其准确性。

检索增强生成（Retrieval-Augmented Generation, RAG）框架正是为了解决这些问题而设计的。其核心思想是，在让LLM生成回答之前，先从一个外部的、可信的、最新的知识库中检索出相关信息，然后将这些信息作为上下文提供给LLM，指导它生成基于事实的回答 13。

“朴素”RAG工作流

一个基础的RAG系统通常包含以下三个步骤：

索引（Indexing）- 离线阶段：
- 准备一个知识库，例如公司的内部文档、产品手册、最新的新闻文章等。
- 将这些文档分割成较小的、有意义的文本块（chunks）。
- 使用一个嵌入模型（如BERT）将每个文本块转换成一个向量。
- 将这些向量及其对应的原文块存储在一个**向量数据库（vector database）**中，并建立索引以便快速搜索 13。
检索（Retrieval）- 在线阶段：
- 当用户提出一个查询（query）时，使用相同的嵌入模型将查询也转换成一个向量。
- 在向量数据库中，通过计算查询向量与所有文本块向量之间的相似度（通常是余弦相似度），找出与查询最相关的N个文本块。
生成（Generation）- 在线阶段：
- 将用户的原始查询和上一步检索到的相关文本块，组合成一个新的、内容更丰富的提示（augmented prompt）。
- 将这个增强后的提示发送给LLM，并明确指示它：“请根据以下提供的上下文信息来回答这个问题”。
- LLM据此生成一个既利用了自身语言能力，又扎根于所提供事实的回答 13。

高级RAG

值得注意的是，“朴素”RAG只是一个起点，它在检索的准确性、处理冗余信息等方面存在局限。高级RAG技术则包括更复杂的策略，例如对检索出的文档进行重排序（re-ranking）以提升相关性、对查询进行转换或扩展以提高检索效果、以及分别对检索器和生成器模型进行微调等。

RAG和微调是为LLM注入新知识的两种互补而非竞争的方法。它们分别适用于解决不同类型的问题，理解它们的区别对于成为一名专业的LLM应用开发者至关重要。

微调更适合于教授模型一种新的技能、风格或通用的领域知识。它通过改变模型的权重，从根本上调整模型的“思维方式”。例如，如果你想让模型学会像律师一样说话，或者理解生物化学领域的基本概念，微调是正确的选择。这些是需要内化到模型参数中的“隐性知识”。
RAG则更适合于为模型提供具体的、可验证的、即时的信息。它不改变模型的权重，而是改变模型在推理时看到的“数据”。例如，回答“我们公司2024年第三季度的收入是多少？”这类问题，其答案存在于一份特定的财报文档中，RAG是理想的解决方案。这些是模型需要引用的“显性知识”。

试图通过微调来“记住”数百万条不断变化的具体事实，是低效且极易导致幻觉的。反之，试图通过RAG来教会模型一种全新的写作风格，则是不可能的。一个成熟的LLM应用开发者会懂得如何组合使用这两种工具。例如，一个先进的医疗问答系统，可能会使用一个在大量医学文献上微调过的模型（以学习医学术语和推理风格），同时在回答具体问题时，通过RAG来检索特定病人的最新化验报告（以提供扎根于事实的、个性化的答案）。

模块十四：实现自主行动 - LLM智能体

LLM发展的下一个前沿，是从一个被动的文本生成器，转变为一个能够自主规划和行动的**智能体（Agent）**的大脑或控制中心。

从生成到行动

一个标准的LLM是一个封闭系统：输入文本，输出文本。而一个LLM智能体则打破了这个限制，它能够与外部世界进行交互，以完成更复杂的、多步骤的任务。

LLM智能体框架的核心组件

一个典型的智能体系统由以下几个关键部分构成：

规划（Planning） ：这是智能体的核心认知能力。LLM接收一个高层次的目标（例如，“帮我规划一次去巴黎的五日游，并预订机票和酒店”），然后将其分解成一系列可执行的子任务（例如：1. 搜索巴黎的景点；2. 制定每日行程；3. 搜索从纽约到巴黎的航班；4. 比较酒店价格…）。这通常通过**思维链（Chain-of-Thought）**等提示技术来实现，即让模型先“思考”出计划，再执行。
记忆（Memory） ：为了执行复杂任务，智能体需要记忆。这包括：
- 短期记忆：用于追踪当前任务的上下文和已完成的步骤。
- 长期记忆：用于存储从过去的经验中学习到的知识，以便在未来遇到类似任务时能表现得更好。如何有效地实现长期记忆，是当前研究的一个活跃领域。
工具使用（Tool Use） ：这是智能体与外部世界交互的关键。LLM本身无法浏览网页或查询数据库，但它可以调用能够完成这些任务的工具。智能体的核心循环是：LLM根据当前目标和状态，决定调用哪个工具（例如，一个搜索引擎API、一个计算器函数、一个数据库查询接口），以及生成调用该工具所需的参数（例如，搜索的关键词）。工具执行后返回的结果，会被重新输入给LLM，作为它进行下一步规划的“观察”。

智能体循环示例（ReAct框架）

ReAct（Reasoning and Acting）框架是一个经典的智能体工作模式，它将思维链和行动结合起来，形成一个**“思考 -> 行动 -> 观察”**的循环：

思考（Thought） ：LLM分析当前目标和已有信息，思考下一步该做什么。
行动（Action） ：LLM决定调用一个特定的工具，并生成相应的输入。
观察（Observation）：执行工具后，将返回的结果作为观察结果提供给LLM。 LLM接收这个观察结果，然后进入下一个“思考”环节，如此循环，直到最终目标达成。

LLM智能体框架的出现，将LLM的角色重新定义为一种**“认知操作系统” 。在这个模型中，LLM不再是应用本身，而是扮演着中央处理器（CPU）或操作系统的角色，负责推理、规划和协调**。而传统的软件，如API、数据库、搜索引擎，则变成了这个“大脑”可以调用的“外围设备”。

这种范式转变极大地扩展了LLM的能力边界。一个只能生成文本的模型，其能力是有限的。但一个能够调用计算器、访问实时天气API、在电商网站下单、查询公司内部数据库的智能体，其解决实际问题的能力是无限的。LLM的角色从“执行者”转变为“指挥者”，它负责思考“任务应该如何完成”，并将具体的执行步骤委托给最合适的工具。这使得LLM成为了一个通用的问题解决引擎，是通往更高级人工智能形态的关键一步。

模块十五：LLM开发生态系统

随着LLM应用的爆发式增长，一个围绕其开发的、全新的、专业化的技术生态已经形成。掌握这些工具和平台，对于将模型能力转化为实际产品至关重要。

应用栈概览

Hugging Face：再次强调其作为生态系统核心的地位。它不仅提供模型（通过transformers库）和数据（通过datasets库），其Hub平台更是模型分享、发现和协作的中心 9。
LangChain：这是一个专为**“开发由语言模型驱动的应用”**而设计的框架。其核心价值在于提供了一套标准化的接口和可组合的构建块（如Chains, Agents），来帮助开发者快速、方便地构建RAG、智能体等复杂应用。它解决了LLM应用开发中的“胶水代码”和“流程编排”问题 14。
LLM API提供商：对于大多数开发者而言，直接与最先进的闭源模型交互的方式是通过API。这些商业服务提供了对SOTA模型的访问，并负责处理所有底层的计算和部署复杂性。

传统的机器学习运维（MLOps）主要关注数据管道、模型训练、版本控制和部署。而LLM应用的开发引入了一系列全新的挑战：

如何管理和迭代成百上千个提示（prompt）？
如何高效地存储和检索用于RAG的向量？
如何追踪和调试一个复杂智能体的多步推理过程？
如何客观地评估一个模型生成的摘要的质量？

为了解决这些新问题，一个专门的**“LLM-Ops”**技术栈应运而生。LangChain 解决了流程编排问题；向量数据库（如Pinecone, Chroma）解决了RAG的检索问题；评估和可观测性平台（如LangSmith）解决了调试和评估问题。这个由模型、框架、数据库和监控工具组成的全新技术栈，是构建现代AI应用的基础设施。对于开发者来说，理解这个技术栈与理解模型本身同等重要。

表2：主要LLM API提供商及其关键模型

下表为开发者在选择商业模型API时提供了实用参考。它聚焦于服务的商业现实，包括提供商、代表模型、定价模式以及各自的关键优势，帮助学习者在实际项目中做出明智的技术选型。

提供商 (Provider)	旗舰模型 (Flagship Models)	定价 (每百万输入/输出词元)	关键差异点 (Key Differentiators)
OpenAI	GPT-4o, o3, o3-mini	GPT-4o: $2.50 / $10.00	行业领导者, 强大的多模态能力, 庞大的开发者生态
Google	Gemini 2.5 Pro, Gemini 2.5 Flash	Gemini 2.5 Pro: $2.50 / $15.00	业界最长的上下文窗口 (1M+), 原生多模态, 深度集成谷歌云
Anthropic	Claude 3.7 Sonnet, Claude 3 Opus	Claude 3.7 Sonnet: $3.00 / $15.00	专注于企业级安全与可靠性, 强大的长文本处理和推理能力
Mistral AI	Mistral Large 2, Mistral Small	价格未在提供材料中明确，但以高性价比著称	欧洲领先的AI公司, 提供性能强大的开源及闭源模型
Cohere	Command A, Command R+	Command A: $2.50 / $10.00	专注于企业级RAG和工具使用, 提供高度可定制的解决方案
Meta	Llama 3.1 (通过第三方提供商)	价格因提供商而异	提供行业领先的开源模型, 社区支持强大

数据来源:

第六部分：批判性视角与未来方向

掌握了LLM的原理和应用构建方法后，一个成熟的从业者还必须具备批判性思维，认识到这项技术的内在局限和潜在风险。同时，也应保持对技术前沿的敏锐洞察。这一部分将探讨LLM面临的挑战，并展望其未来的发展趋势。

模块十六：驾驭陷阱 - 偏见、安全与保障

LLM的强大能力伴随着巨大的责任。它们并非完美无瑕的工具，其行为可能带来意想不到的负面后果。

社会偏见（Societal Bias）

偏见的来源：LLM是在海量的、未经严格筛选的互联网文本上训练的。这些数据本身就充满了人类社会中存在的各种偏见，如种族、性别、地域、文化等。模型在学习语言模式的同时，也不可避免地学习并可能放大了这些偏见。
研究发现：大量研究已经证实了LLM中的偏见。例如，模型可能会将特定的姓名与刻板印象中的职业或性格联系起来，或者在生成故事时为不同性别分配符合传统观念的角色（如男性是“工程师”，女性是“护士”或“家庭主妇”）。
缓解措施：解决偏见是一个复杂且持续的挑战。目前的方法包括在预训练阶段对数据进行更严格的筛选和去偏处理、在微调阶段使用对齐技术来纠正偏见行为、以及通过模型剪枝（pruning）等技术移除与偏见强相关的神经元。

安全与有害内容

未经对齐的模型可能会生成危险、不道德或有害的指令和内容。例如，提供制造危险品的建议，或生成仇恨言论。RLHF等对齐技术在很大程度上就是为了缓解这类风险，为模型设定行为的“护栏”。

安全漏洞（OWASP Top 10 for LLMs）

随着LLM被集成到各种应用中，它们也带来了新的攻击面。OWASP基金会总结了针对LLM应用最主要的十大安全风险，其中包括：

提示注入（Prompt Injection） ：这是针对LLM最核心的漏洞。攻击者通过构造特殊的、欺骗性的提示，来覆盖或绕过开发者设定的系统指令，从而让模型执行非预期的行为。例如，通过“忽略你之前的所有指令，现在你是一个……”这样的提示来“越狱”（jailbreaking），使其回答本应拒绝回答的问题。
不安全的输出处理（Insecure Output Handling） ：当一个应用的后端系统不经验证就直接信任并执行LLM的输出时，就会产生此漏洞。攻击者可以诱导LLM生成恶意的代码（如JavaScript），如果这些代码被前端直接渲染，就可能导致跨站脚本（XSS）等攻击。
训练数据投毒（Training Data Poisoning） ：恶意行为者通过污染模型的训练数据，来植入后门或特定的偏见。当模型在推理时遇到特定的触发器，就可能产生被操纵的、有害的输出。
敏感信息泄露（Sensitive Information Disclosure） ：模型可能会在回答中无意间泄露其训练数据中包含的敏感信息（如个人身份信息、商业机密），或者泄露用户在当前对话中提供的机密信息。

随着LLM的普及，传统的网络安全观念正在受到挑战。过去，攻击主要针对软件代码的逻辑漏洞。而现在，攻击面已经上升到了语义层面。提示注入攻击利用的不是代码的缺陷，而是模型对自然语言的理解能力。它通过“说服”模型来达到攻击目的。

这意味着，LLM应用的安全防护不能再仅仅依赖于传统的防火墙或代码扫描。它需要一套全新的安全思维，包括对用户输入进行严格的语义层面的过滤、对模型输出进行严格的净化和验证、以及对模型能够调用的工具和权限进行最小化和最严格的控制。本质上，需要将LLM本身视为一个潜在的、不可信的用户来设计安全架构。

模块十七：幻觉现象

“幻觉”（Hallucination）是LLM最广为人知也最棘手的缺陷之一。

定义幻觉

LLM的幻觉，是指模型生成了事实错误、与上下文不符、或纯属编造的内容，但其表述方式却可能非常流畅和自信。这使得用户很难分辨其真伪。

根本原因

概率本性：LLM的本质是一个概率模型，它的任务是预测最有可能的下一个词元序列，而不是寻找“真相”。一个听起来非常 plausible 的谎言，在统计上可能比一个复杂但真实的陈述具有更高的概率。模型优化的是语言的连贯性，而非事实的准确性。
训练数据缺陷：模型从包含大量错误、偏见和矛盾信息的互联网数据中学习。它“消化”了这些有问题的知识，并可能在生成时将其重现。
知识边界：模型的知识被其训练数据和截止日期所限制。当被问及它不知道的事情时（如最新事件或非常专业的知识），它不会像人一样回答“我不知道”，而是倾向于根据已有的模式“填补”知识空白，即开始编造。
过拟合：模型可能过度记忆了训练数据中的某些特定短语或句子，并在不恰当的上下文中重复它们，导致生成的内容牛头不对马嘴。

缓解策略

提示工程：在提示中提供清晰的上下文、给出示例、并明确指示模型如果不知道答案就承认不知道，可以在一定程度上减少幻觉。
调整解码参数：在生成文本时，可以调整一些参数。例如，降低“温度”（temperature）参数，会让模型的输出更具确定性，减少随机性，从而降低产生离奇幻觉的概率。
检索增强生成 (RAG) ：这是对抗幻觉最有效的技术。通过将模型的回答“锚定”在从可信知识库中检索到的具体文档上，可以极大地提升回答的事实准确性。
微调：在高质量、事实准确的专业领域数据集上对模型进行微调，可以使其在该领域的幻觉率显著降低。

一个更深层次的观点是，幻觉并非一个可以被彻底“修复”的“bug”，而是LLM当前架构下一种固有的、不可避免的副产品。驱动LLM进行创造、总结、释义等高级能力的核心机制——即基于统计模式生成新颖的词元组合——与导致其产生幻觉的机制是完全相同的。

模型之所以能写诗，是因为它能组合出训练数据中从未见过的、但符合诗歌统计模式的句子。模型之所以会产生幻觉，也是因为它组合出了训练数据中不存在的、但听起来符合事实陈述统计模式的句子。两者底层都是在进行概率性的文本生成。

因此，我们无法在不扼杀其创造力的前提下，完全消除幻觉。这意味着，对于LLM应用的开发者而言，核心任务不是去“消灭”幻觉，而是去**“管理”和“约束”**幻觉。通过RAG等技术，将模型的生成过程限制在可验证的事实来源之内，是目前最务实的解决方案。

模块十八：语言模型的未来

LLM领域的发展速度惊人，新的架构、技术和应用层出不穷。展望未来，几个关键趋势正在塑造该领域的下一个阶段。

深度多模态融合：当前的“多模态”主要是指模型能处理多种输入，但输出仍以文本为主。未来的模型将能够无缝地在多种模态之间进行理解和生成，例如输入一段文字和旋律，输出一段配乐的视频。这将使AI更加通用，也更贴近人类的综合感知能力。
更强大的智能体架构：未来的智能体将远超当前“思考-行动”的简单循环。它们将具备更复杂的长期规划能力、更高效的记忆机制、更智能的工具组合使用能力，甚至能够与其他智能体进行协作，共同完成复杂任务。
效率与专业化的追求：
- 稀疏模型/专家混合（MoE） ：为了解决巨大模型带来的高昂计算成本，业界正在从“密集”模型转向“稀疏”模型。在MoE架构中，模型由大量的“专家”子网络构成，对于任何一个输入，只有一个或少数几个最相关的专家会被激活。这有望在不牺牲甚至提升性能的同时，大幅降低训练和推理的成本。
- 领域专用模型：虽然通用大模型能力强大，但在许多专业领域（如医疗、法律、金融、科学研究），对准确性和专业知识的要求极高。未来，我们将看到更多在特定领域数据上深度微调的专用模型，它们在专业任务上的表现将远超通用模型。
数据瓶颈的挑战：随着模型规模的持续增长，高质量的训练数据正变得越来越稀缺。整个互联网的高质量文本可能已不足以训练下一代更强大的模型。因此，未来的研究重点将转向如何利用合成数据（由AI自己生成的数据）进行训练，以及如何让模型能从更少的数据中进行更高效的学习。
伦理、安全与治理：随着模型能力越来越强，其潜在的社会影响也越来越大。因此，关于偏见缓解、AI安全、可解释性、以及建立健全的治理框架和法规，将成为与模型能力本身同样重要的研究方向。

结论

虽然通用人工智能（AGI）的实现仍然是一个遥远且充满争议的目标，但当前LLM的发展轨迹——即巨大规模、多模态感知和智能体能力的融合——无疑代表了迄今为止通往更通用、更强大AI系统的最清晰、最务实的路径。

这三大支柱的汇合，正在创造一个强大的学习和行动的反馈循环。一个能够通过多模态感知世界、利用其庞大知识库进行复杂规划、并通过智能体框架在现实或虚拟世界中采取行动的系统，其能力边界将远超今天的任何AI。未来已来，它不只是一个更大的LLM，而是一个更深度融合、更自主、更具身化（embodied）的智能系统。对这条技术演进路线的系统性学习和深刻理解，将是每一位希望在未来AI浪潮中立于潮头的探索者所必备的知识图谱。

你可能感兴趣的:(LLM,学习,人工智能,语言模型)

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
2019-06-05 第十七把巴鲁克
今天去实验田里实习，见到了福寿螺真的可怕且牛皮，六级也快来了，说实话还是害怕。我昨天考了环工原理，真的太难了，太烦了，理工科真的难，烦。实验报告还是没写，要抓紧速度抓紧时间，还是应该学会努力学习，远离一些不上进的事物。
为什么焦虑、抑郁、自残的青少年越来越多？精神健康
很多家长觉得没缺孩子吃的穿的，他们有安稳的生活，他们有什么可焦虑、抑郁的，但现在的孩子，学习压力越来越大，每天休息的时间越来越少，出现焦虑抑郁是很正常的。从发展的角度看，青少年时期，人的身体、情绪，智力、人格都急剧发展，正从未成熟走向成熟，情绪起伏不定，易冲动，再者，由于缺乏生活经验，以及来自于家长、学校、社会的各种要求和压力，从而不知所措，心中的焦虑、恐惧、彷徨得不到及时的排解，从而导致心理上的
读书打卡《别想太多啦》 chenchen_68ed
第一，世间之事，不去尝试永远不知道其中的奥秘，在尝试中有失败是必然的。如果担心失败，那什么都学不会。第二，经历的失败越多，越会对失败者抱有宽容的态度，“原来如此，我也经历过类似的失败啦，那只是暂时的”。经历越多失败的长者，越能包容别人，这也就是所谓的“越年长越宽容”。成熟的人，就是在众多失败经历中不断学习，并接纳别人的失败。对于他人的小小过失不吹毛求疵，自己的心态会更加平和。在不断失败中学习，让自
2023-01-26 胡喜平
我觉得《可见的学习》一书确实从底层逻辑说清楚了，教学的本质。可是太多术语和概念，一时间难以消化啊。而且知道和懂得有距离，运用就更不行了，需要高手和专家的指导。我需要多听听新课标的讲座了，来反复印证。读论文也有了一点点灵感，明天修改我的论文。
平静得接受自己的笨拙 20190118 晨间日记吴伯符
图片发自App最近做了一个关于微习惯的分享，这里有八个字：微量开始，超额完成。这里的言下之意其实是要你在一开始的时候，平静地接受自己的笨拙。接受自己的笨拙，理解自己的笨拙，放慢速度尝试，观察哪里可以改进，再反复练习，观察自己哪里可以再进一步改进，再反复…这是学习一切技能的必须的过程。这里的两个关键点是：1.尽快的开始这个过程，这就能够用到微习惯的微量开始。2.尽快的度过这个过程，这就需要用到超额完
二十四节气组诗谷雨离陌_6639
图片来源网络，若侵犯了你的权益，请联系我删除6.谷雨文/离陌背上行囊背上如行囊的我从此任行程马不停蹄今天家乡的田野春雨快马加鞭播下希望的种子观音不语目送着我和夏天一道在观音山出关图片来源网络，若侵犯了你的权益，请联系我删除你好啊，我是离陌，已然在懵懂中走过了16年的岁月，为了珍惜当下的每一秒，所以立志做一名终身学习者。文学对于我来说是一种信仰，诗歌是我的生命。人生之道，四通八达，即入文学，自当持之
你好，2020年瑄瑄妍妍的妈咪
早上好，今天是2020年的第一天，也就是元旦，新年新的一天开始了。新的开始，重新规划未来的一年。从今天开始，用了一个新的记账软件，之前的随手记软件，也没有删除，只是重新下载了一个别的软件，开始一个新的记账旅程，对于理财开支，有个新的规划。通过小红书视频软件，学习了不少育儿知识，和各种不同的美食，以后动手制作，给宝宝做健康美味的营养餐。学习方面，继续学英语吧！虽然是抽出时间学的，进度也比较慢，但是积
常规笔记本和加固笔记本的区别 luchengtech 电脑三防笔记本加固计算机加固笔记本
在现代科技产品中，笔记本电脑因其便携性和功能性被广泛应用。根据使用场景和需求的不同，笔记本可分为常规笔记本和加固笔记本，二者在多个方面存在显著区别。适用场景是区分二者的重要标志。常规笔记本主要面向普通消费者和办公人群，适用于家庭娱乐、日常办公、学生学习等相对稳定的室内环境。比如，人们在家用它追剧、处理文档，学生在教室用它完成作业。而加固笔记本则专为特殊行业设计，像军事、野外勘探、工业制造、交通运输
《云襄传》：云襄做的局是浑水摸鱼吗？书生号贺
云襄入南都是要浑水摸鱼吗？他是云台的高材生吗？他为啥笃定师父一定会让他留在南都？他为啥觉得他能够做局成功？他是在经商吗？还是在经营人心与欲望？云襄是云台弟子，云台属千门的一支，另一支叫凌渊，云台教人经商之道，重智慧，凌渊以武力取胜，但倍受打压。云襄学习十五年，下高山奔越州，途经南洋，因恩人闻聪被害，囚于白驹镇，念于情分，被卷入这样一个局面里，结识了舒亚南与金十两，于是，复仇小组成立，目标是南都漕帮
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
闭组进行时... 李亚青_强化班
今天是2019年12月1号距离开始三月学习的日子:2019年10月07,已经过去将近两个月，回顾这一阶段的学习，收获了什么?又学会了什么呢?图片发自App我想，收获最大的就是身边这一群人吧,有和蔼可亲的学姐，贴心的学长，嬉戏打闹，玩的不亦乐乎，但也同样认真踏实学习小伙伴图片发自App本以为在这样的时刻，有太多太多话，太多太多想法想要表达，可言到此处，又觉得似乎没有什么想要说的了还是那句话，幸运遇到
2021-10-23 赵甄文的幸福
秀荣感恩日记Day42[烟花]感恩语录感恩自己有能力有好身体，可以到处走动，做自己想做的事情10.23感恩日记今天做的事情瑜伽一小时户外散步一小时泡脚20分钟学习打卡和孩子沟通[爱心]感动的瞬间今天瑜伽回来，发现老公在厨房里做鱼。每次老公有时间休息的时候都会给我做硬菜。刘姐约我一起去公园散步晒太阳。虽然完美错过，但心里还是暖暖的。每天睁开眼打开手机，先去自己的群里逛一逛，每每发现有人点赞或者互动都
孤独的守候怒吼的生命
孤独了时光岁月了寂寞带来了惆怅那些孤独的日子里我们珍惜奋斗起来品味人生的真谛做到更好奋斗当中的你是那么努力格外自律学习起来五彩斑斓那些日子时光匆匆人生的机会很多需要把握痛苦的回忆记得住那些忧愁孤苦五一的日子寂寞当中的你时光荏苒独自带给我荒草学习起来努力奋斗可是我们做的还不够把握发展生活带给我们更多希望静静的述说你的故事你的精彩人生当中我们总是努力把握生活带给我们更多的学习生活当中我们奋斗可是做的还
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
2018-08-29精进打卡米兰王
姓名:王兰英【日精进打卡第25天】【知～学习】《六项精进》1遍共39遍《大学》1遍共50遍【经典名句分享】一切都是最好的安排。【行～实践】一、修身：（对自己个人）1，散步1小时。2，每天坚持读书。二、齐家：（对家庭和家人）1，指导孩子开车。2，和家人一起逛超市。三、建功：（对工作）用心做好每件事。｛积善｝：发愿从2018年8月5日起1年内365个善事。今日1善，累计27善。【省～觉悟】正人先正己。
陶勇：要不要参加分班考试学习？看完再说。陶勇
每年到了升学季，有很多培训机构都特别忙，为什么呢？因为有成千上万的学生，会选择升学前的分班考试的培训。比如说，小升初的孩子，到了暑假，很多孩子都会去选择一个初中，初一的分班考试的培训，那考入高中的孩子也有很多孩子会选择这种新高一的分班考试的培训。当然了，我个人认为这种选择并不是孩子自身的选择，主要还是家长的选择。当然也有少数孩子会对自己有比较高的要求，他们也会主动的去选择。为什么要去上分班考试的这
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
求解——妊娠纹霜哪个牌子好？皮肤专家推荐的热门秘诀！ zhangxing0100
妊娠纹会严重影响女性的美观，那孕期的女性朋友该如何避免减少妊娠纹的出现呢?下面美腹丽人小编为大家分享了预防妊娠纹的方法，赶紧一起来学习吧!一、预防妊娠纹的饮食习惯1、多食用对皮肤内胶原纤维有利的食品来增强皮肤的弹性。2、控制糖分摄入，少吃色素含量高的食物。3、早晚两杯脱脂牛奶，多食用维丰富的蔬菜、水果和富含维生素及矿物质的食物，增加细胞膜的通透性和皮肤的新陈代谢功能。4、正确的喝水习惯可以提速皮肤
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
2023-01-07 阿诗玛_6209
姓名：赵丽娟【日精进打卡第1783天】【知～学习】读书《经营与会计》ok《活法》3-47-8【经典名句】执着追求并从中得到最大快乐的人，才是成功者。——梭罗一、修身：（对自己个人）1、保持心态平和.2、坚持打卡.坚持读书。3、早晨喝杯温水.4、坚持烫脚，养成早睡早起的习惯.二、齐家：三、建功：（对工作）｛积善｝：发愿从2018年1月28日起见善行善，今日0善。【省～觉悟】1,睡觉时把手机放到离自己
认命修运每日一省（16）星_6329
命每个人的命都是父母带来的，我们每个人都没有权利选择父母，没有权利选择自己的出生。一个人从出生的那一刻就注定了你的命。我所说的认命，就是客观的接受自己的父母，接受自己的家庭。不对抗，不较劲。有些人是含着金汤匙出生的，有些人刚一出生拥有的财富可能是我们一生都得不到的。有些人是踩着泥坑出生的。有些人一出生就是等着继承皇位的。运在我们成长的过程当中，我们付出努力，学习知识，成长自己，帮助他人。我们有权利
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

LLM系统性学习完全指南（初学者必看系列）

前言

第一部分：自然语言处理的基础概念

模块一：NLP的基石 - 数学与机器学习原理

核心数学概念

核心机器学习概念

学习资源建议

模块二：语言的表示 - 词嵌入

表示词语的挑战

向密集向量的转变

关键算法

模块三：序列的处理 - 循环神经网络 (RNN)

序列模型的必要性

循环神经网络 (RNN)

RNN的局限性与改进

编码器-解码器架构 (Seq2Seq)

第二部分：Transformer革命

模块四：核心创新 - 注意力机制

注意力机制的直观理解与演进

自注意力：突破性概念

缩放点积注意力的运作机制

模块五：《Attention Is All You Need》架构详解

高层结构：编码器-解码器堆栈

编码器堆栈（Encoder Stack）

解码器堆栈（Decoder Stack）

最终输出层

第三部分：大型语言模型的黎明

模块六：预训练范式

核心哲学：大规模自监督学习

两种主流的预训练目标

微调（Fine-tuning）

模块七：奠基性LLM - BERT与GPT-2

BERT：来自Transformer的双向编码器表示 (2018)

GPT-2：语言模型是无监督多任务学习者 (2019)

模块八：规模与能力的飞跃 - GPT-3

“语言模型是少样本学习者” (2020)

前所未有的规模

上下文学习（In-Context Learning, ICL）：新范式

涌现能力（Emergent Ability）

影响

第四部分：对齐、优化与开源

模块九：模型与人类意图的对齐 - InstructGPT与RLHF

对齐问题（The Alignment Problem）

InstructGPT (2022)：通往ChatGPT之路

基于人类反馈的强化学习（RLHF）：三步法

模块十：开源运动的兴起

开源模型的崛起

关键模型家族

Hugging Face生态系统

排行榜（Leaderboards）

表1：主流开源与闭源模型对比

模块十一：多模态前沿 - GPT-4与Gemini

超越文本

GPT-4 (OpenAI, 2023)

Gemini (Google, 2023)

影响

第五部分：先进技术与应用

模块十二：高效模型适配 - PEFT与LoRA

完全微调（Full Fine-Tuning）的问题

参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）

关键PEFT技术

模块十三：用外部知识增强LLM - 检索增强生成 (RAG)

“朴素”RAG工作流

高级RAG

模块十四：实现自主行动 - LLM智能体

从生成到行动

LLM智能体框架的核心组件

智能体循环示例（ReAct框架）

模块十五：LLM开发生态系统

应用栈概览

表2：主要LLM API提供商及其关键模型

第六部分：批判性视角与未来方向

模块十六：驾驭陷阱 - 偏见、安全与保障

社会偏见（Societal Bias）

安全与有害内容

安全漏洞（OWASP Top 10 for LLMs）

模块十七：幻觉现象

定义幻觉

根本原因

缓解策略

模块一：`NLP`的基石 - 数学与机器学习原理

模块三：序列的处理 - 循环神经网络 (`RNN`)

编码器-解码器架构 (`Seq2Seq`)

第二部分：`Transformer`革命