FF-Studio

【DeepSeek】一文详解GRPO算法——为什么能减少大模型训练资源？

GRPO，一种新的强化学习方法，是DeepSeek R1使用到的训练方法。

今天的这篇博客文章，笔者会从零开始，层层递进地为各位介绍一种在强化学习中极具实用价值的技术——GRPO（Group Relative Policy Optimization）。如果你是第一次听说这个概念，也不必慌张，笔者会带领你从最基础的强化学习背景知识讲起，一步步剖析其来龙去脉，然后再结合实例讲解 GRPO 在实际应用中的思路和操作示例，最后再和其他近似方法对比，看看它和当下主流的 PPO（近端策略优化）等方法究竟有何区别与联系。

强烈推荐看完此帖子后再阅读另一帖——适当练习，强化记忆：【DeepSeek】大模型强化学习训练GRPO算法，你学会了吗？

GRPO原论文链接：https://arxiv.org/abs/2402.03300
GRPO中译文链接：https://blog.csdn.net/qq_38961840/article/details/145384346

为什么需要关注强化学习与策略优化？

在正式开始介绍 GRPO 之前，笔者想先谈谈一个较为根本的问题：为什么需要策略优化？又为什么要在意强化学习？ 其实，无论是做推荐系统、对话系统，还是在数学推理、大语言模型对齐（alignment）场景里，最终我们都希望模型能输出“更优”或“更符合某些偏好”的序列。深度强化学习（DRL）借用“奖励”（reward）来衡量我们希望的目标，从而对生成的过程进行引导。策略优化（Policy Optimization）则是其中一个关键方法论。

在语言模型的应用中，比如要让模型解出数学题、满足人类对话偏好（例如避免不良输出，或给出更详细解释），我们往往先用大规模的无监督或自监督训练打下基础，然后通过一些“监督微调”（SFT）再进一步让模型学会初步符合需求。然而，SFT 有时难以将人类或某些高层目标的偏好显式地整合进去。这时，“强化学习微调”就登场了。PPO 是其中的代表性算法，但它同样有自己的痛点，比如要维护额外的大价值网络，对内存与计算的需求在大模型场景中不容忽视。GRPO 正是在此背景下闪亮登场。

回顾：强化学习中的基本概念

智能体、环境与交互

在传统的强化学习框架中，我们通常有一个“智能体”（Agent）和一个“环境”（Environment）。智能体每一步会基于自身策略 π(s) 去决定一个动作 a，然后环境会根据这个动作给出新的状态和一个奖励 r，智能体收集这个奖励并继续下一步。这种循环往复构成了一个时间序列过程，直到到达终止条件（如达成目标或超时等）。

不过在语言模型（尤其是大型语言模型，LLM）当中，我们也可以把一个“问题”（例如一段文本提示 prompt）当作环境给的状态，然后模型（智能体）产出下一 token（动作），再不断重复，直到生成一段完整的回答；人类或额外的奖励模型再给予一个整段回答的质量分，或在每个 token（或步骤）时刻给出一个局部奖励。虽然大语言模型看似和传统强化学习中的“马尔可夫决策过程（MDP）”有一些差别，但本质上也可以抽象为状态—动作—奖励—状态—动作的机制。

状态、动作、奖励、策略

状态 s：对于语言模型来说，可以把已经生成的token序列（以及当前问题）视为一种压缩后的状态；在传统RL里则是环境观测到的一些向量或特征。
动作 a：在语言模型生成场景，动作可以是“在词表 vocabulary 里选出下一个 token”；在机器人或游戏环境中就是“移动、旋转、跳跃”等操作。
奖励 r：衡量好坏程度的指标。在语言模型对齐中，常见做法是训练一个奖励模型来打分；或者直接用规则判断回答是否正确等。
策略 π：智能体在状态 s 下如何选动作 a 的概率分布函数 π(a|s)。在语言模型里，这就是产生每个 token 的条件分布。

价值函数与优势函数：为什么需要它们

在 PPO 等典型策略梯度方法中，我们通常还会引入一个价值函数（Value Function），它大致表示在当前状态下，未来能期望得到多少奖励；或者更进一步，我们可以在每个动作之后去看“优势函数（Advantage Function）”，衡量“这个动作比平均水平好多少”。为什么要搞价值函数或优势函数？因为在训练时，如果只有奖励的直接指引，每个样本都可能方差很大，收敛缓慢。价值函数的引入可以降低训练方差，提升训练效率。

从传统方法到近端策略优化（PPO）的发展脉络

策略梯度与Actor-Critic范式

**策略梯度方法（Policy Gradient）**是强化学习中一种比较直接的做法：我们直接对策略函数 $\pi_\theta(a|s)$ 进行建模，计算相应的梯度来最大化期望回报。它不用像价值迭代一样枚举所有状态-动作组合，也不用像Q-learning那样先学Q再做贪心决策。策略梯度可以很好地适应高维连Continuous动作空间，以及更灵活的策略表示。

不过，如果单纯用 REINFORCE 等策略梯度方法，每一步更新都可能有很大方差，甚至出现不稳定现象。为此，研究者们提出了Actor-Critic框架：将“策略”叫做Actor，将“价值函数”叫做Critic，两者共同训练，让Critic起到估计价值、降低方差的作用。

PPO的核心思路：clip与优势函数

后来又有了近端策略优化（PPO），它是在 Actor-Critic 的基础上，为了避免策略更新太猛导致训练不稳定，引入了一个剪切 (clip) 技巧，即把

$\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}$

这个概率比率给夹在 $[1-\varepsilon, 1+\varepsilon]$ 区间内。这样就能防止每次更新过度，从而保持相对稳定。但要在实践中实现 PPO，需要在每个时间步都有一个价值网络去估计优势函数

$A_t = r_t + \gamma V_{\psi}(s_{t+1}) - V_{\psi}(s_t)$

或者更常用的是广义优势估计（GAE），来让更新时的方差更小。可问题在于，当我们的模型规模急剧增加——如在数十亿甚至千亿参数的语言模型上搞 PPO，就会发现训练资源消耗巨大。因为这个价值网络本身通常要和策略网络“同样大”或近似大，并且需要在每个token都计算价值，从而带来可观的内存占用与计算代价。

PPO的局限性：模型规模与价值网络的负担

小模型时代，这也许还好，但是在当代的 LLM 背景下，我们需要极度节省训练内存与计算资源。尤其当你要做 RLHF（Reinforcement Learning from Human Feedback）或者别的对齐强化学习时，还要搭建奖励模型 Reward Model、价值网络 Critic Model，再加上本身的策略模型 Actor Model，算力负担往往让人头痛。

这就是 GRPO 的问题背景：如何在保证PPO那样的收益（稳定、可控等）前提下，减少对昂贵价值网络的依赖？ 这背后的核心思路就是：用“分组输出相互比较”的方式来估计基线（Baseline），从而免去对价值网络的需求。

GRPO（分组相对策略优化）是什么？

GRPO提出的动机：为何需要它

基于上节的对 PPO 的简要回顾，你应该能感受到 PPO 在大模型时代的痛点。要不就牺牲训练速度和成本，要不就需要想其他方法来绕过价值网络的全程参与。而 GRPO（全称 Group Relative Policy Optimization）正是对这一问题做出了一种解答。

核心动机：在许多实际应用中，奖励只有在序列末端才给一个分数（称之为 Result/Oucome Supervision），或在每一步给一些局部分数（Process Supervision）。不管怎么样，这个奖励本身往往是离散且比较稀疏的，要让价值网络去学习每个token的价值，可能并不划算。而如果我们在同一个问题 q 上采样多份输出 $o_1, o_2, \ldots, o_G$ ，对它们进行奖励对比，就能更好地推断哪些输出更好。由此，就能对每个输出的所有 token 做相对评分，无须明确地学到一个价值函数。

在数理推理、数学解题等场景，这个技巧尤其管用，因为常常会基于同一个题目 q 生成多个候选输出，有对有错，或者优劣程度不同。那就把它们的奖励进行一个分组内的比较，以获取相对差异，然后把相对优势视为更新策略的依据。

GRPO的关键点一：分组采样与相对奖励

GRPO 中，“分组”非常关键：我们会在一个问题 q 上，采样 GRPO 份输出 $o_1, o_2, \ldots, o_G$ 。然后把这组输出一起送进奖励模型（或规则），得到奖励分 $r_1, r_2, \ldots, r_G$ 。下一步干嘛呢？我们并不是单纯地对每个输出和一个固定基线比较，而是先把 $\mathbf{r} = \{r_1, r_2, \ldots, r_G\}$ 做一个归一化（如减去平均值再除以标准差），从而得出分组内的相对水平。这样就形成了相对奖励 $\tilde{r}_i$ 。最后我们会把这个相对奖励赋给该输出对应的所有 token 的优势函数。

简单来说：多生成几份答案，一起比较，再根据排名或分数差更新，能更直接、简洁地反映同一问题下的优劣关系，而不需要用一个显式的价值网络去学习所有中间时刻的估计。

GRPO的关键点二：无需价值网络的高效策略优化

因为不再需要在每个 token 上拟合一个价值函数，我们就能大幅节省内存——不必再维护和 Actor 同样大的 Critic 模型。这不仅是存储层面的解放，也是训练过程中的显著加速。

当然，GRPO 也会引入一些新的代价：我们要为每个问题采样一组输出（不止一条），意味着推理时要多花点算力去生成候选答案。这种方法和“自洽性采样（Self-consistency）”思路也有点类似，如果你了解一些数学题多候选合并判断的做法，就能感受到其中的相通之处。

GRPO的原理拆解

数学公式：和PPO的对比

图 1: PPO 和 GRPO 的对比。 GRPO 放弃了价值模型，从分组得分中估计，显著减少了训练资源

先让我们写下一个 PPO 的核心目标函数回顾一下：在 PPO 的简化推导里，假设一次只更新一步，那么

$\mathcal{J}^{\mathrm{PPO}}(\theta) = \mathbb{E}_{[q \sim P(Q),\, o \sim \pi_{\theta_{\mathrm{old}}}(O \mid q)]} \Biggl[ \frac{1}{\|o\|} \sum_{t=1}^{\|o\|} \frac{\pi_{\theta}(o_t \mid q, o_{JPPO(θ)=E[q∼P(Q),o∼πθold(O∣q)][∥o∥1t=1∑∥o∥πθold(ot∣q,o<t)πθ(ot∣q,o<t)At]$

其中

$q$ 是从一个训练集问题分布 $P (Q)$ 中采样来的问题；
$o$ 是在旧策略 $\pi_{\theta_{\mathrm{old}}}$ 下生成的输出序列；
$\|o\|$ 是输出序列的长度（token数）；
$A_t$ 是优势函数，需要一个单独价值网络 $V_\psi$ 来估计。

而 GRPO 做的事情则是：同样从问题分布中取到 $q$ ，但这一次我们会针对同一个 $q$ 采样出一组输出 $\{o_1, \ldots, o_G\}$ 。对每个输出 $o_i$ 做奖励打分 $r_i$ 。然后相对化后，将它当作对各 token 的优势函数。最后也类似 PPO 的做法去最大化一个带有 ratio 的目标，只不过“价值函数”被分组相对奖励给替代了。用更直观的话说：

$\mathcal{J}^{\mathrm{GRPO}}(\theta) = \mathbb{E} \Biggl[ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{\|o_i\|} \sum_{t=1}^{\|o_i\|} \min\bigl[ r_{\mathrm{ratio}},\, \operatorname{clip}(r_{\mathrm{ratio}},\, 1-\varepsilon,\, 1+\varepsilon) \bigr] \cdot \hat{A}_{i,t} \biggr] - \text{(KL 正则项)}$

其中

$r_{\mathrm{ratio}} = \frac{\pi_{\theta}(o_{i,t}\mid q, o_{i,rratio=πθold(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t)$
$\hat{A}_{i,t}$ 是分组相对意义上的“优势”，我们下节会具体解释它是怎么来的；
KL 正则用来限制策略和一个参考策略（通常是初始 SFT 模型或当前 $\theta_{\mathrm{old}}$ ）之间不要差异过大，以防训练崩坏。

分组得分与基线估计

那么 $\hat{A}_{i,t}$ 到底怎么来？就是分组相对奖励：我们先把每个 $o_i$ 的奖励 $r_i$ 做如下归一化

$\tilde{r}_i = \frac{r_i - \mathrm{mean}(\mathbf{r})}{\mathrm{std}(\mathbf{r})}$

然后令

$\hat{A}_{i,t} = \tilde{r}_i$

也就是说，输出 $o_i$ 的所有 token 共享同一个分数 $\tilde{r}_i$ 。它们的好坏相对于该分组内的平均水平来衡量，而不依赖外部价值网络去“拆分”或“插值”。这样我们就得到了一个无价值网络的优势函数，核心思路就是基于相互间的比较与排序。

如果用的是过程监督（process supervision），即在推理过程中的每个关键步骤都打分，那么就会略有不同。那时每个步骤都有一个局部奖励，就可以把它依时间序列累加或折算成与 token 对应的优势，这在后文示例里我们会详细展示。

一步步理解损失函数

让我们把 PPO/GRPO 都视为一种“Actor 优化”过程，每个 token 的梯度大致长这样：

$\nabla_{\theta} \mathcal{J}(\theta) = \mathbb{E}\bigl[ (\text{gradient coefficient}) \cdot \nabla_{\theta} \log \pi_{\theta}(o_t \mid q, o_{∇θJ(θ)=E[(gradient coefficient)⋅∇θlogπθ(ot∣q,o<t)]$

在 PPO 里，gradient coefficient 里往往含有优势 $A_t$ 以及 ratio 等信息；而在 GRPO 里，gradient coefficient 变成了以分组奖励为基础的一些值。之所以说 GRPO 是 PPO 的一个变体，是因为它同样维持了 ratio 的范式，只不过优势函数来自“分组内相对奖励”，而非价值网络。

惩罚项与KL正则

最后补充一句，PPO 中常见的 KL 惩罚手段或者 clipping 手段，在 GRPO 中都可以保留，以避免训练过程中的策略分布出现暴走。当然，也有一些更精细的做法，比如把 per-token KL 正则直接加到损失中，而不是只在奖励函数 $r$ 里扣一个 $\beta \cdot \log \frac{\pi_\theta}{\pi_{\mathrm{ref}}}$ 。这在各家实现时略有不同，但思路都类似。

实例讲解：如何用GRPO来解决一个简单问题

有了上文的理论基础后，笔者想通过一个简化的实例，帮助你把 GRPO 的实施逻辑走一遍。我们会从最基本的样本生成到分组打分再到反向传播，都捋顺顺。

实验场景与环境：示例说明

假设笔者有一个文本对话场景：系统给定一个问题 $q$ ，模型需要给出回答 $o$ 。我们有一个奖励模型来判断回答的好坏（比如回答是否准确、是否违反某些安全规范等），返回一个数值分 $r$ 。为简单起见，就不考虑过程监督，先考虑结果监督（Outcome Supervision）的情境。

在这个设定下，每个问题 $q$ 提供的“回合”只有一次——即输出一段文本 $o$ ，即可拿到一个终端奖励 $r$ 。要做 GRPO，我们至少要对同一个 $q$ 生成 $GRPO$ 条回复 $o_1, o_2, ..., o_G$ 。

过程监督VS结果监督：过程奖励与末端奖励的对比

结果监督（Outcome Supervision）：只有输出序列结束才打一个奖励，如回答对/错、得分多少。GRPO 则把这个 $r$ 同样分配给序列里每个 token。
过程监督（Process Supervision）：对中间推理步骤也有打分（比如计算正确一步就+1，错误一步就-1）。那就得收集多个时刻的奖励，然后累加到每个 token 或步骤上，再做分组相对化。

在绝大多数简单场景下，初学者往往更容易先实现结果监督的版本，这也正好方便讲解 GRPO 的主干思路。

分组采样的实现：batch内如何分组？

在实际操作中，我们往往会在一个 batch 中包含若干个问题 $q$ ，对每个问题生成 $GRPO$ 个答案。也就是说 batch 大小 = $B$ ，每个问题生成 $GRPO$ 个候选，那么一次前向推理要生成 $B * GRPO$ 条候选。然后，每个候选都送奖励模型 $\mathrm{RM}$ 得到分数 $r_i$ 。注意这样做推理开销不小，如果 $GRPO$ 较大，会显著地增加生成次数，但换来的好处是，我们不再需要价值网络了。

实际伪代码示例

我们以结果监督为例，先给出一个简化版的伪代码，帮助你更好理解 GRPO 的操作流程。假设 $\pi_\theta$ 是当前策略模型， $\pi_{\text{ref}}$ 是参考模型（一般初始可设为和 $\pi_\theta$ 同一个拷贝，用于算 KL 正则）， $\mathrm{RM}$ 是奖励模型。

# 请注意这只是简化的示例，忽略了各种超参数细节
# GPRO 伪代码 (结果监督)

for iteration in range(N_iterations):
    # 1) 设置参考模型 pi_ref <- pi_theta
    pi_ref = clone(pi_theta)
    
    for step in range(M_steps_per_iter):
        # 2) 从训练集中取一批问题 D_b
        D_b = sample_batch(train_dataset, batch_size=B)
        
        # 3) 让旧策略 pi_theta 生成 G 个输出
        #    o_i 表示第 i 个候选答案
        batch_outs = []
        for q in D_b:
            outs_for_q = []
            for i in range(G):
                o_i = sample(pi_theta, q)
                outs_for_q.append(o_i)
            batch_outs.append(outs_for_q)
        
        # 4) 对每个输出用奖励模型 RM 打分
        #    r_i = RM(q, o_i)
        #    同时做分组归一化
        #    r_i_tilde = (r_i - mean(r)) / std(r)
        #    赋值给 A_i (整条序列的优势)
        
        # 这里只是一种写法：对 batch 内每个 q 都做
        for outs_for_q in batch_outs:
            # outs_for_q 大小是 G
            r_list = [RM(q, o_i) for o_i in outs_for_q]
            mean_r = mean(r_list)
            std_r = std(r_list)
            if std_r == 0: std_r = 1e-8  # 避免除0
            
            for i, o_i in enumerate(outs_for_q):
                r_tilde = (r_list[i] - mean_r) / std_r
                # 把这个 r_tilde 记为 A(o_i) 用于后续计算
                # 也可以存在某个 data structure 里

        # 5) 根据 GPRO 目标函数做梯度更新
        #    关键是每个 token 的优势都用 A(o_i)
        #    并加上 KL 正则
        loss = compute_gpro_loss(pi_theta, pi_ref, batch_outs, r_tilde_values)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

在这个伪代码里，我们可以看到最关键的部分就是每个问题都采样 $GRPO$ 个输出，分别打分，然后在该分组里做归一化。每个输出 $o_i$ 的所有 token 共享一个相同的优势值 $\hat{A}_{i,t} = \tilde{r}_i$ 。然后再像 PPO 那样做 ratio + clip 的梯度更新。

这便完成了结果监督版本的 GRPO 训练循环。相比 PPO，差别在于：不再需要一个大型的价值网络来估计优劣，而是由分组对比来获得相对优势。

GRPO的高级实践

迭代式强化学习：奖励模型的更新与回放机制

在实际用 GRPO 的时候，如果你的奖励模型 RM 也是学习得来的，那么你就会发现：当策略模型变强时，RM 所得到的训练样本分布会越来越“难”，这时 RM 自身也需要更新。这样就会出现迭代强化学习流程：先用当前 RM 来指导一轮策略更新，然后再用新策略生成的数据来更新 RM。为了避免灾难性遗忘，可以保留一部分旧数据（回放机制 replay buffer），让 RM 每次都在新旧数据上共同训练，这样 RM 不会完全忘记之前的问题特征。

与RFT、DPO、PPO的比较与兼容

如果你关注过 RFT（Rejection Sampling Fine-tuning）或 DPO（Direct Preference Optimization）等方法，可能会好奇，GRPO 跟它们的差别在哪？

RFT：基于同一个模型生成多条输出，再筛选掉错误或低质量的，用剩下的做微调。它不显式区分好答案与更好答案的幅度差异，也不怎么更新策略分布对错的概率比例；可以算是比 GRPO 简单但也少了细粒度的奖励。
DPO：需要成对比较 o+、o-，然后做一个 pairwise 的对比损失，和 GRPO 的思路也有差异；DPO 主要是无需单独的 RL 优化器，但它也需要 pairwise preference 的训练集。
PPO：最常见的 RL 算法，需要维护价值网络 Critic；而 GRPO 则尝试通过分组相对奖励来免去价值网络的需求。

在实际应用中，你或许会发现 GRPO 和 PPO 并不是对立关系。相反，如果你想在某些场景继续用价值网络的估计，或者想把“分组相对奖励”与“价值函数估计”结合起来，也能做成一个“混合式”的算法。

如何在大模型中使用GRPO：大模型的内存与计算优化

内存节省：因为不用价值网络了，一下子省下了你那数十亿参数的 Critic；即使你要训练奖励模型 RM，也通常比 Critic 规模小得多，因为后者常常要和 Actor 同规模。
计算优化：采样 GRPO 条输出会增加推理开销，但假如你本来就打算做多样性生成或自洽采样，那么这点代价在许多场景可以接受。并且在实践中，你可以对 GRPO 做折中：不一定要搞到 64、128 这样大的值，有时候 8、16 就能提供足够稳定的信号了。

GRPO在数学推理中的应用

聊到这里，你或许会问，“为什么在数学推理上特别推荐 GRPO？” 答案是：数学推理往往需要对问题进行多次思考和尝试，然后选出最优或最正确的答案；在强化学习调优模型时，如果采用 PPO，需要把每一步的中间推理步骤都拟合一个价值，这个操作很昂贵且可能噪声很大。而 GRPO 只需在每个问题末端对最终答案进行打分，并做分组对比即可。

DeepSeekMath的背景：数学预训练与指令微调

以DeepSeekMath为例，这是一个在大规模数学数据（包括 Common Crawl 中挖掘到的 1200 亿数学相关 tokens）上持续训练的 7B 参数级大模型，然后再用数学指令微调（CoT、PoT 等）进行强化。最终它在竞赛级别的 MATH 数据集上超过了 50% 的准确率，且优于众多同类开源模型。DeepSeekMath 在最后一步引入了强化学习，其中就包含了类似 GRPO 的思路：使用分组对比来为每个采样解答分配一个相对奖励。

为什么GRPO能帮助数学推理的性能提升

多候选比较：数学题经常一题多解，或者一题多错。对同一个题目生成多条解答，然后让奖励模型或规则判断优劣，就能充分地分辨出优质解答，策略更新也更“有的放矢”。
减少价值网络负担：数学推理往往需要对中间推理步骤给出价值估计，训练一个庞大的 Critic 不但开销大，还不一定效果好；分组相对法则让我们可以只在最终结论处打分就足够了。
更快收敛：当你一次就能对同一个题目生成多条回答，批量比较之后再更新策略，训练效率比采样单条回答要高一些。

领域内与领域外的表现：GSM8K与MATH只是起点

在 DeepSeekMath 或其他类似模型的实验中，常见的领域内任务就是GSM8K（小学奥数题库）与MATH（高难度竞赛级别数学题），这二者在训练集中已经比较常见，或在微调数据中直接出现。当我们用 GRPO 对这些任务做强化学习时，能大幅提升Top1 准确率，还能间接提升Maj@K（使用多候选投票后的准确率）。更有趣的是，某些领域外（Out-of-domain）任务也常能收益于这种训练，因为分组对比的过程让模型的输出分布“更稳健”，不再容易随机输出无关或浅层错误。

常见问题答疑 (FAQ)

GRPO和PPO的训练时长、资源对比？

在传统 PPO 里，你需要并行维护一个与 Actor 模型同规模的价值网络，并且对每条生成序列都要算价值函数，还要做 backprop。在 GRPO 里，取而代之的是多生成的开销（分组 GRPO 条）。至于哪种方式更省资源，要看你把 GRPO 设多大，还要看你的价值网络是否可以小规模近似。整体上，如果 GRPO 取一个适中的值，GRPO 通常能省掉 Critic 带来的大规模网络开销，显著降低内存占用，所以对大模型场景往往非常划算。

如果奖励模型精度不高会怎样？

如果奖励模型 RM 本身不靠谱，GRPO 就会有问题，因为它基本完全依赖 RM 的评分来区分哪个输出好。可以把不靠谱的奖励模型理解成 PPO 里一个“瞎子价值网络”，一样会引导错误。所以说在 RLHF 场景下，如何拿到足够精确的奖励模型是关键。如果 RM 噪声很大，你至少要做大量分组采样（让噪声平均化），或引入一些更新机制来持续标注数据纠偏。

能不能只做离线版本的GRPO？

可以——如果你已经有一个固定的语料，其中包含每个问题的多个候选回答，以及相应的奖励分，甚至比较关系，那就可以做一个离线版的 GRPO：直接把这些现成分组拿来计算目标函数更新策略。不过，这和在线的强化学习还是有区别，在线能不断地探索新的输出，离线则只能在已有数据里学习。如果你的数据够丰富，离线也能取得不错的效果，称之为Offline RL思路。但若你想持续提升模型性能，在线还是更灵活。

总结与展望

在这篇（异常冗长的）博客里，笔者从最基本的强化学习概念与 PPO 的发展脉络说起，一步步引出了 GRPO（Group Relative Policy Optimization）在大模型微调，尤其是数学推理、语言对齐、对话生成等场景中的强大价值。通过对其关键点（分组采样、相对奖励、免价值网络）及简化伪代码示例，大家应该已经对 GRPO 的动机和实现过程有了一个系统性认识。

回顾要点：

PPO 需要价值网络 Critic，但 GRPO 则用“分组内相互比较”的方法来估计优势，从而免去高昂的价值网络需求；
GRPO 同样保留了 PPO 的 ratio 范式与 KL 正则等机制，训练稳定性与可控性良好；
在大规模模型（例如 7B, 70B 甚至更大）上实施强化学习时，内存和计算经常成为瓶颈，GRPO 的思路能节省大量资源；
对于多候选本来就不可避免的应用场景（如数学推理一题多答，对话生成一问多答），GRPO 的采样成本不会显得过于昂贵，反而能有效利用多候选的互相比较来改进策略。

未来工作：

进一步研究如何在分组奖励中结合细粒度的过程监督（Process Supervision），让每一步推理都能得到更准确的反馈；
探索奖励模型不确定性时，GRPO 的鲁棒性提升方案，比如对噪声标注或不完善RM加入 Bayesian 推理；
与其他对齐策略（RFT、DPO 等）深度整合，形成更加通用的框架——毕竟它们都可以被看作某种简化或变体的强化学习。

强化学习依旧在不断演化，无论是对话对齐、信息检索、代码生成还是学术数学推理领域，如何设计更优的策略优化方法，一直是开放问题。希望本篇万字长文能够在你脑海中埋下一颗种子。即便今天就只带走了“GRPO 不用价值网络，还挺省事”这个印象，也算是个好开始。如果你对更细节的实现或研究方向感兴趣，欢迎继续深入阅读相关资料或尝试自己动手做实验。

在笔者看来，在不远的将来，我们或许会看到更多更灵活、更高效的算法出现。毕竟，人类对“奖励信号”如何最有效地指导大模型还有很多的挖掘空间。让我们拭目以待吧。

参考文献

以下列出部分在这篇博客中提到或隐含引用的文献和资源，以供进一步阅读和探索。很多思路都可以在这些论文或项目中找到更详细的技术细节。

[Schulman et al. 2017] Schulman, J. 等. Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347, 2017.
[Ouyang et al. 2022] Ouyang, L. 等. Training language models to follow instructions with human feedback. NeurIPS, 2022.
[Rafailov et al. 2023] Rafailov, R. 等. Direct Preference Optimization (DPO). 2023.
[Yuan et al. 2023] Yuan, Z. 等. Rejection Sampling Fine-Tuning (RFT). 2023.
[DeepSeekMath 项目] https://github.com/deepseek-ai/DeepSeek-Math
其他更多参考文献参见笔者在正文中提到的相关引文。

你可能感兴趣的:(DeepSeek,R1,算法)

day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
量子计算解决气候变化：科学家找到了新方法大力出奇迹985 量子计算
气候变化已成为全球面临的严峻挑战，传统计算方法在应对与之相关的复杂问题时存在诸多局限。而量子计算作为新兴技术，为解决气候变化难题带来曙光。本文深入剖析科学家利用量子计算应对气候变化的新方法。量子计算凭借独特的量子比特与量子特性，在加速气候模型计算、优化模型参数、预测极端天气事件等方面展现出巨大优势。同时，在可再生能源整合、电网管理、碳捕获等实际应用场景中也发挥着重要作用。尽管目前面临硬件和算法等方
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
算法刷题-动态规划之背包问题
1.背包问题之01（4.30）题目描述小明有一个容量为VV的背包。这天他去商场购物，商场一共有NN件物品，第ii件物品的体积为wiwi，价值为vivi。小明想知道在购买的物品总体积不超过VV的情况下所能获得的最大价值为多少，请你帮他算算。输入描述输入第11行包含两个正整数N,VN,V，表示商场物品的数量和小明的背包容量。第2∼N+12∼N+1行包含22个正整数w,vw,v，表示物品的体积和价值。1
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
顺时针旋转N * N 的矩阵忆杰算法 Python 矩阵 python 算法
顺时针旋转题目描述数据范围实现逻辑代码实现题目描述有一个NxN整数矩阵，请编写一个算法，将矩阵顺时针旋转90度。给定一个NxN的矩阵，和矩阵的阶数N,请返回旋转后的NxN矩阵。数据范围0852789963'''#第N列逆序后变成第N行#或者是第i行变成第N-i-1列代码实现classSolution:#列转换为行defline2Row(self,mat,n):arr=[]forlineinrang
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
【经典面试题】【JVM与性能调优】垃圾回收算法（标记-清除算法/复制算法/标记-整理算法/CMS/G1/ZGC）本本本添哥归档 -Inbox1 001 -基础开发能力面试题目汇总 jvm 算法
JVM自动管理内存，当对象不再被引用时，垃圾回收器（GarbageCollector）会自动释放这些对象占用的内存。标记-清除算法（Mark-Sweep）：标记垃圾再清除，会产生碎片。复制算法（Copying）：将存活对象复制到新区域，适合新生代，无碎片但浪费空间。标记-整理算法（Mark-Compact）：标记后将存活对象移到一端，清除另一端，适合老年代。分代收集算法（GenerationalC
从零到一：基于差分隐私决策树的客户购买预测系统实战开发笙囧同学决策树算法机器学习
作者简介：笙囧同学，中科院计算机大模型方向硕士，全栈开发爱好者联系方式：[email protected]各大平台账号：笙囧同学座右铭：偷懒是人生进步的阶梯文章导航快速导航前言-项目背景与价值项目概览-系统架构与功能技术深度解析-核心算法原理️系统实现详解-工程实践细节性能评估与分析-实验结果分析Web系统开发-前后端开发部署与运维-DevOps实践完整复现指南-手把手教程️实践案例与故障排除-问
CMS垃圾回收器+G1垃圾回收器+ZGC垃圾回收器详解及对比 weixin_43751710 jvm java 算法
一、CMS收集器CMS(ConcurrentMarkSweep)收集器是一种以获取最短回收停顿时间为目标的收集器，是一款针对老年代的垃圾回收器，一般和Parallel回收器（一款新生代回收器，是使用复制算法的收集器，又是并行的多线程收集器，收集时会Stoptheworld）配合使用。1.工作过程从名字（包含“MarkSweep”）上就可以看出CMS收集器是基于标记-清除算法实现的，它的运作整个过程
负载均衡-加权随机算法 BP白朴 Nginx 负载均衡 java 算法服务器
负载均衡-加权随机算法由于访问概率大致相同，所以如果部分服务器性能不一致的话，容易导致性能差的服务器压力过大，所以要根据服务器性能不一致的情况，给性能好的服务器多处理请求，给差的少分配请求（能者多劳）所以就需要在随机算法的基础上给每台服务器设置权重，延伸为加权随机算法1、将应用服务器集群的IP存到Map里,每个IP对应有一个权重2、创建一个List,来将所有权重下的IP存到list里面如：192.
零数学基础理解AI核心概念：梯度下降可视化实战九章云极AladdinEdu 人工智能 gpu算力深度学习 pytorch python 语言模型 opencv
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。用Python动画演示损失函数优化过程，数学公式具象化读者收获：直观理解模型训练本质，破除"数学恐惧症"当盲人登山者摸索下山路径时，他本能地运用了梯度下降算法。本文将用动态可视化技术，让你像感受重力一样理解AI训练的核心原理——无需任何数学公式推导。一、梯度下降：AI世界的"万有
CMS垃圾回收器和G1垃圾回收器区别_g1cms垃圾回收器区别 2401_89191885 jvm
该类所有的实例都已经被回收，也就是Java堆中不存在该类的任何实例；加载该类的ClassLoader已经被回收；该类对应的java.lang.Class对象没有在任何地方被引用，无法在任何地方通过反射访问该类的方法。3.常见的垃圾回收算法1、Mark-Sweep（标记-清除算法）：（1）思想：标记清除算法分为两个阶段，标记阶段和清除阶段。标记阶段任务是标记出所有需要回收的对象，清除阶段就是清除被标
【数据结构】--ArrayList与顺序表 bubu__ 数据结构数据结构
文章目录1.线性表2.顺序表3.ArrayList简介4.MyArrayList的实现5.ArrayList使用5.1ArrayList的构造5.2ArrayList常见操作5.3ArrayList的遍历5.4ArrayList的扩容机制6.ArrayList的具体使用6.1简单的洗牌算法6.2杨辉三角1.线性表线性表（linearlist）是n个具有相同特性的数据元素的有限序列。线性表是一种在实
分布式全局唯一ID生成：雪花算法 vs Redis Increment，怎么选？
雪花算法vsRedisIncrement：分布式全局唯一ID生成方案深度对比在分布式系统开发中，“全局唯一ID”是绕不开的核心问题。无论是分库分表的数据库设计、订单编号的唯一性保证，还是日志追踪的链路标识，都需要一套可靠的ID生成方案。今天我们就来聊聊两种主流方案——雪花算法（Snowflake）和RedisIncrement，并从原理、特性到适用场景，帮你理清如何选择。同时，我们还将对比其他常见
数据结构2-集合类ArrayList与洗牌算法
文章目录★引言：一.MyArrayList模拟实现（一）IList（二）MyArrayList（1）add(Tdata)（2）add(intpos,Tdata)（3）IllgalPosException（4）indexOf(ObjecttoFind)（5）contains(ObjecttoFind)（6）get(intpos)（7）set(intpos,Tvalue)（8）remove(Objec
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n