贝塔西塔

强化学习RLHF详解

RLHF（Reinforcement Learning from Human Feedback）模型详解

一、背景

1. 传统强化学习的局限性

传统的强化学习（Reinforcement Learning, RL）依赖于预定义的奖励函数（Reward Function），但在复杂任务（如自然语言生成、机器人控制）中，设计精确的奖励函数极为困难。例如：

模糊目标：生成“高质量文本”难以量化，无法用简单的指标（如BLEU、ROUGE）完全衡量。
奖励误导：错误的奖励设计可能导致模型优化错误目标（如生成冗余内容以增加长度得分）。
稀疏奖励问题：关键行为缺乏即时反馈信号（例：围棋中只有终局胜负奖励）
安全问题：模型可能利用奖励漏洞，产生有害但符合奖励规则的行为（如生成虚假信息但语法正确，清洁机器人通过阻挡传感器伪造"干净"环境）。

方法	问题描述	典型案例
监督微调(SFT)	无法捕捉复杂偏好，易过拟合标注数据	GPT-2在对话场景中的不一致性
规则系统	难以处理开放域问题，维护成本高	早期客服机器人的人工规则库
纯RL方法	奖励函数设计困难，易出现奖励破解	文本游戏AI中的分数刷取行为

2. 人类反馈的必要性

人类能直观判断输出是否符合期望（如真实性、安全性、流畅性），但将主观判断转化为可计算的奖励函数是一大挑战。RLHF通过直接利用人类反馈，绕过传统奖励函数设计的瓶颈，使模型更贴近人类价值观。

3. 相关技术演进

技术路线	核心思想	局限性
逆强化学习 (IRL)	从专家演示中逆向推导奖励函数	依赖完整专家轨迹
偏好学习	通过二元比较学习隐式奖励	信息量低、收敛速度慢
协同训练	人机交互式策略优化	实时反馈成本高昂

4. RLHF的里程碑突破

2017年 DeepMind《Deep Reinforcement Learning from Human Preferences》 首次系统提出框架
2020年 OpenAI 在GPT-3微调中应用RLHF 实现可控文本生成
2022年 Anthropic Constitutional AI 将RLHF与价值观对齐结合

二、原理

1. 系统工作流程

初始策略π

生成行为样本

人类反馈收集

训练奖励模型RM

RL优化策略

RLHF分为三阶段，核心是将人类偏好转化为可优化的目标：

1. 监督微调（Supervised Fine-Tuning, SFT）

目的：用高质量数据初始化模型，为后续强化学习提供基础策略。
方法：在预训练模型（如GPT-3）上，使用人类标注的示例（如“问题-理想回答”对）进行微调。
示例：对于指令遵循任务，标注者编写符合要求的回答，模型通过交叉熵损失学习。

2. 奖励建模（Reward Modeling, RM）

目标：训练一个神经网络（RM），将模型输出映射为标量奖励值，反映人类偏好。
数据收集：
- 给定输入（如用户提问），模型生成多个候选输出。
- 人类对输出进行排序（如A > B > C）或评分（如1-5分）。
训练方法：
- 成对排序法：将排序转化为概率（如Bradley-Terry模型），最大化偏好对的似然函数。
- 损失函数示例：
  $\mathcal{L}(\theta) = -\mathbb{E}_{(x,y_w,y_l)\sim D} \left[ \log \sigma(R_\theta(x,y_w) - R_\theta(x,y_l)) \right]$
  其中 $y_w$ 为偏好输出， $y_l$ 为较差输出， $R_\theta$ 为奖励模型。

3. 强化学习优化（RL Fine-Tuning）

目标：使用RM提供的奖励信号优化策略模型（即LLM生成模型）。
算法选择：
- 近端策略优化（PPO）：通过限制策略更新幅度，确保训练稳定性。
- 关键步骤：
  1. 当前策略生成输出，RM计算奖励。
  2. 计算优势函数（Advantage Function）以评估动作的优劣，一般选择SFT模型作为基线。
  3. 最大化奖励的同时，添加KL散度惩罚项，防止策略偏离初始SFT模型过远。
  - 目标函数：
    $\max_\pi \mathbb{E}_{x\sim D, y\sim \pi(\cdot|x)} \left[ R_\theta(x,y) - \beta \text{KL}(\pi(\cdot|x) || \pi_{\text{SFT}}(\cdot|x)) \right]$
    其中 $\beta$ 是KL惩罚系数，用于平衡奖励最大化和策略稳定性。

三、优势

1. 解决复杂目标对齐问题

直接利用人类偏好，避免手动设计奖励函数的偏差。例如，在道德对齐任务中，模型能学习拒绝生成有害内容，即使未明确编程规则。

2. 提升生成质量

实验显示，RLHF使模型在开放域对话、指令遵循等任务中的输出更相关、连贯且符合用户意图（如InstructGPT比GPT-3的生成质量提高50%以上）。

3. 数据效率提升

相较于纯监督学习，RLHF通过少量高质量反馈即可引导模型优化方向。例如，ChatGPT的RLHF阶段仅需数万条人类反馈数据。

4. 安全性与可控性

通过显式偏好标注，可引导模型避免输出偏见、虚假信息。例如，标注者被要求优先选择无害且真实的回答。

四、劣势与挑战

1. 人类标注成本高

需要大量标注者对输出进行排序或评分，成本随任务复杂度指数增长。例如，训练ChatGPT的RM阶段需雇佣数百名标注者，耗时数月。

2. 反馈偏差问题

主观性：不同标注者的标准可能冲突（如文化差异）。
短期偏好陷阱：人类可能偏好表面流畅但内容空洞的回答，导致模型“讨好”标注者而非解决实际问题。

3. 奖励模型的局限性

过拟合：RM在训练数据外的分布上表现可能下降。
对抗漏洞：模型可能学会生成欺骗RM的高奖励但低质量的输出（如添加无意义关键词）。

4. 训练复杂度与不稳定性

PPO需要精细调参（如KL系数、学习率），否则易陷入局部最优或崩溃。
多阶段训练（SFT→RM→RL）导致流程冗长，调试困难。

5. 评估困难

缺乏客观指标衡量对齐效果，仍需依赖人类评估，形成闭环依赖。

五、典型应用场景

对话系统（如ChatGPT）：提升回答的有用性、诚实性和无害性。
代码生成（如GitHub Copilot）：生成更符合程序员意图的代码。
内容安全过滤：自动识别并拒绝生成有害内容。
机器人控制：通过人类演示优化复杂动作策略。

六、未来方向

降低标注成本：利用半监督学习或主动学习选择高价值样本。
多模态反馈：结合文本、语音、图像等多种反馈形式。
对抗鲁棒性：设计更健壮的奖励模型，防止对抗攻击。
自动化对齐：探索无需人类干预的自我对齐方法（如基于规则的奖励模型）。

总结

RLHF通过将人类偏好融入强化学习框架，显著提升了模型对齐复杂目标的能力，但其成功依赖于高质量标注数据、稳定的训练流程以及对奖励模型的深入理解。随着技术进步，RLHF有望在更多领域实现安全、可控的AI系统部署。

代码demo

RM训练

import torch
from torch.utils.data import Dataset, DataLoader
from transformers import AutoModelForSequenceClassification, AutoTokenizer, AutoConfig

class PreferenceDataset(Dataset):
    """人类偏好数据集加载器"""
    def __init__(self, data_path, tokenizer, max_length=128):
        self.tokenizer = tokenizer
        self.max_length = max_length
        # 示例数据结构：每行包含prompt, chosen_response, rejected_response
        self.data = self.load_data(data_path)  
    
    def load_data(self, path):
        # 实际应替换为真实数据加载逻辑
        return [
            {
                "prompt": "Explain quantum physics",
                "chosen": "Quantum physics studies subatomic particles...", 
                "rejected": "It's something about tiny invisible things..."
            },
            # 更多数据样本...
        ]
    
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        item = self.data[idx]
        # 对chosen和rejected响应分别编码
        chosen = self.tokenizer(
            item["prompt"] + self.tokenizer.sep_token + item["chosen"],
            max_length=self.max_length,
            padding="max_length",
            truncation=True,
            return_tensors="pt"
        )
        
        rejected = self.tokenizer(
            item["prompt"] + self.tokenizer.sep_token + item["rejected"],
            max_length=self.max_length,
            padding="max_length",
            truncation=True,
            return_tensors="pt"
        )
        
        return {
            "chosen_input_ids": chosen["input_ids"].squeeze(),
            "chosen_attention_mask": chosen["attention_mask"].squeeze(),
            "rejected_input_ids": rejected["input_ids"].squeeze(),
            "rejected_attention_mask": rejected["attention_mask"].squeeze()
        }

class RewardModelTrainer:
    def __init__(self, model_name="roberta-base", lr=1e-5):
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        
        # 初始化模型
        config = AutoConfig.from_pretrained(model_name)
        config.num_labels = 1  # 回归任务，输出单个奖励值
        self.model = AutoModelForSequenceClassification.from_pretrained(
            model_name, 
            config=config
        ).to(self.device)
        
        # 冻结底层参数（可选）
        for param in self.model.roberta.parameters():  # 根据实际模型结构调整
            param.requires_grad = False
            
        # 替换最后的分类层
        self.model.classifier = torch.nn.Sequential(
            torch.nn.Linear(config.hidden_size, 256),
            torch.nn.ReLU(),
            torch.nn.Linear(256, 1)
        ).to(self.device)
        
        self.optimizer = torch.optim.AdamW(self.model.parameters(), lr=lr)
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        
    def compute_loss(self, chosen_rewards, rejected_rewards):
        """对比损失函数：确保chosen奖励 > rejected奖励"""
        # 使用pairwise ranking loss
        margin = 1.0  # 控制奖励差异的幅度
        return torch.mean(
            torch.clamp(rejected_rewards - chosen_rewards + margin, min=0)
        )
    
    def train_epoch(self, dataloader):
        self.model.train()
        total_loss = 0
        
        for batch in dataloader:
            # 前向传播计算奖励
            chosen_outputs = self.model(
                input_ids=batch["chosen_input_ids"].to(self.device),
                attention_mask=batch["chosen_attention_mask"].to(self.device)
            )
            chosen_rewards = chosen_outputs.logits.squeeze()
            
            rejected_outputs = self.model(
                input_ids=batch["rejected_input_ids"].to(self.device),
                attention_mask=batch["rejected_attention_mask"].to(self.device)
            )
            rejected_rewards = rejected_outputs.logits.squeeze()
            
            # 计算对比损失
            loss = self.compute_loss(chosen_rewards, rejected_rewards)
            
            # 反向传播
            self.optimizer.zero_grad()
            loss.backward()
            torch.nn.utils.clip_grad_norm_(self.model.parameters(), 1.0)
            self.optimizer.step()
            
            total_loss += loss.item()
        
        return total_loss / len(dataloader)
    
    def evaluate(self, dataloader):
        """计算验证集准确率"""
        self.model.eval()
        correct = 0
        total = 0
        
        with torch.no_grad():
            for batch in dataloader:
                chosen_rewards = self.model(
                    input_ids=batch["chosen_input_ids"].to(self.device),
                    attention_mask=batch["chosen_attention_mask"].to(self.device)
                ).logits.squeeze()
                
                rejected_rewards = self.model(
                    input_ids=batch["rejected_input_ids"].to(self.device),
                    attention_mask=batch["rejected_attention_mask"].to(self.device)
                ).logits.squeeze()
                
                correct += (chosen_rewards > rejected_rewards).sum().item()
                total += len(chosen_rewards)
        
        return correct / total

# 训练流程示例
if __name__ == "__main__":
    trainer = RewardModelTrainer(model_name="roberta-base", lr=1e-5)
    dataset = PreferenceDataset("data/", trainer.tokenizer)
    dataloader = DataLoader(dataset, batch_size=8, shuffle=True)
    
    # 划分训练集和验证集
    val_size = int(0.1 * len(dataset))
    train_set, val_set = torch.utils.data.random_split(dataset, [len(dataset)-val_size, val_size])
    train_loader = DataLoader(train_set, batch_size=8, shuffle=True)
    val_loader = DataLoader(val_set, batch_size=8)
    
    for epoch in range(5):
        train_loss = trainer.train_epoch(train_loader)
        val_acc = trainer.evaluate(val_loader)
        print(f"Epoch {epoch+1}:")
        print(f"  Train Loss: {train_loss:.4f}")
        print(f"  Val Accuracy: {val_acc:.2%}\n")
    
    # 保存最终模型
    torch.save(trainer.model.state_dict(), "reward_model.pth")

RLHF训练大模型

import torch
import torch.nn as nn
from torch.optim import AdamW
from transformers import AutoModelForCausalLM, AutoTokenizer

class RLHFTrainer:
    def __init__(self, config):
        # 初始化所有组件
        self.device = config.device
        
        # 策略模型（待训练）
        self.policy = AutoModelForCausalLM.from_pretrained(config.policy_path).to(self.device)
        
        # 参考模型（冻结）
        self.ref_model = AutoModelForCausalLM.from_pretrained(config.ref_path).to(self.device)
        for param in self.ref_model.parameters():
            param.requires_grad = False
            
        # 奖励模型（示例简化版）
        self.reward_model = AutoModelForCausalLM.from_pretrained(config.reward_path).to(self.device)
        for param in self.reward_model.parameters():
            param.requires_grad = False
            
        # 优化器仅更新策略模型
        self.optimizer = AdamW(self.policy.parameters(), lr=config.lr)
        
        # 关键超参数
        self.kl_coef = config.kl_coef
        self.clip_epsilon = config.clip_epsilon
        self.gamma = config.gamma

    def compute_reward(self, responses):
        """计算奖励分数（简化版，实际需替换为完整RM逻辑）"""
        # 获取奖励模型的隐藏状态
        with torch.no_grad():
            outputs = self.reward_model(responses, output_hidden_states=True)
        last_hidden = outputs.hidden_states[-1]
        
        # 简单线性层计算奖励值
        reward = torch.mean(last_hidden, dim=1)  
        return reward.squeeze()

    def compute_kl(self, policy_logits, ref_logits):
        """计算策略模型与参考模型的KL散度"""
        policy_probs = torch.softmax(policy_logits, dim=-1)
        ref_probs = torch.softmax(ref_logits, dim=-1)
        kl_div = torch.sum(policy_probs * torch.log(policy_probs / ref_probs), dim=-1)
        return torch.mean(kl_div)

    def train_step(self, queries):
        # 阶段1：生成响应
        policy_outputs = self.policy.generate(
            queries, max_length=128, do_sample=True, top_k=50
        )
        with torch.no_grad():
            ref_outputs = self.ref_model.generate(
                queries, max_length=128, do_sample=True, top_k=50
            )

        # 阶段2：计算奖励
        policy_rewards = self.compute_reward(policy_outputs)
        ref_rewards = self.compute_reward(ref_outputs)
        
        # 归一化奖励（提升稳定性）
        policy_rewards = (policy_rewards - policy_rewards.mean()) / (policy_rewards.std() + 1e-8)
        ref_rewards = (ref_rewards - ref_rewards.mean()) / (ref_rewards.std() + 1e-8)
        
        # 计算优势（核心改进点）
        advantages = policy_rewards - ref_rewards
        
        # 阶段3：获取模型输出logits
        policy_logits = self.policy(policy_outputs).logits
        with torch.no_grad():
            ref_logits = self.ref_model(policy_outputs).logits
        
        # 阶段4：计算策略损失
        ratio = torch.exp(policy_logits - ref_logits.detach())
        clipped_ratio = torch.clamp(ratio, 1 - self.clip_epsilon, 1 + self.clip_epsilon)
        
        policy_loss = -torch.min(ratio * advantages, clipped_ratio * advantages).mean()
        
        # 阶段5：KL散度惩罚
        kl_penalty = self.kl_coef * self.compute_kl(policy_logits, ref_logits)
        
        # 总损失
        total_loss = policy_loss + kl_penalty
        
        # 阶段6：反向传播
        self.optimizer.zero_grad()
        total_loss.backward()
        torch.nn.utils.clip_grad_norm_(self.policy.parameters(), 1.0)
        self.optimizer.step()
        
        return {
            "total_loss": total_loss.item(),
            "policy_loss": policy_loss.item(),
            "kl_penalty": kl_penalty.item(),
            "avg_reward": policy_rewards.mean().item()
        }

# 配置类示例
class Config:
    device = "cuda" if torch.cuda.is_available() else "cpu"
    policy_path = "gpt2"
    ref_path = "gpt2"
    reward_path = "gpt2"
    lr = 1e-5
    kl_coef = 0.1
    clip_epsilon = 0.2
    gamma = 1.0

# 训练流程示例
if __name__ == "__main__":
    trainer = RLHFTrainer(Config())
    tokenizer = AutoTokenizer.from_pretrained("gpt2")
    
    # 模拟训练数据
    queries = tokenizer(["Explain quantum physics", "Write a poem about AI"], 
                       return_tensors="pt", padding=True).to(Config.device)
    
    for step in range(100):
        metrics = trainer.train_step(queries.input_ids)
        print(f"Step {step}:")
        print(f"  Loss: {metrics['total_loss']:.4f}")
        print(f"  Reward: {metrics['avg_reward']:.4f}")
        print(f"  KL: {metrics['kl_penalty']:.4f}\n")

关键代码解析：
‌模型架构‌

self.policy = ...  # 可训练的策略模型
self.ref_model = ...  # 冻结的参考模型
self.reward_model = ...  # 提供奖励信号的模型

三模型结构是RLHF标准配置
参考模型和奖励模型均冻结，仅策略模型更新

‌优势计算‌

advantages = policy_rewards - ref_rewards

直接使用策略模型与参考模型的奖励差值
替代传统PPO中的Critic价值函数
以上实现取消了Critic网络，采用了蒙特卡洛方法，基于完整回合的回报（Return）更新策略，直接关联最终奖励。蒙特卡洛方法和Critic TD混合方法各有优劣，后续会针对这个问题进行分析对比

‌策略损失核心‌

ratio = torch.exp(policy_logits - ref_logits.detach())
clipped_ratio = torch.clamp(ratio, 1 - self.clip_epsilon, 1 + self.clip_epsilon)
policy_loss = -torch.min(ratio * advantages, clipped_ratio * advantages).mean()

ratio计算新旧策略差异
clipped_ratio防止单步更新过大
min()操作构建PPO的保守目标函数

‌KL散度惩罚‌

kl_penalty = self.kl_coef * self.compute_kl(policy_logits, ref_logits)

显示控制策略模型的更新幅度
防止与初始策略（参考模型）偏离过多

改进点说明

‌优势计算简化‌

直接使用R_policy - R_ref替代传统PPO中的广义优势估计(GAE)，因为：

文本生成是单回合任务，无需考虑多步回报
参考模型的奖励作为天然基线(baseline)

‌无Critic模型‌
省略价值函数网络：

减少50%以上的参数更新量
避免价值函数与策略网络的耦合训练问题
实际效果参考Anthropic论文结论（节省30%训练时间）

‌动态奖励归一化‌

policy_rewards = (policy_rewards - mean)/std

控制奖励尺度在合理范围
防止不同batch的奖励差异导致训练不稳定

男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
今晚吃太饱了爱伤心的蚂蚁
今晚吃太饱了，两碗干饭，两碗肉汤，一碗牛奶银耳汤，感觉肚子都顶出来了，圆滚滚的！明早要早起，出发去小蚂蚁家！看着剩下的肉汤，倒掉多可惜，干掉了！看着小蚂蚁熬的银耳汤，倒掉多可惜，于是热了一下，顺便热袋牛奶倒进去，大娃喝点，小蚂蚁喝点，还剩下一大碗，继续干掉！吃的太饱，人也懒洋洋的，躺床上不想动，感受的肚子撑撑的感觉，好久没吃这么饱了！这一晚灌的都是汤汤水水的，天冷的晚上，半夜要睡不安稳咯！哈哈！小
你对待万事万物的态度行靜
昨晚爸爸把洒水壶灌满水，对我说：你也该去浇浇你阳台上的花咯。这么大的天气，几天没浇水都快死了。我才意识到自己容易突然间忽视一些事情。尤其是身旁的一些事，可能它们呆久了，反而习以为常。想想每天的生活状态就是在不断的重复着一些事，有点固定模式。没有什么特别发生。记录我的一天：上班，挤公交，用手机或电脑，吃饭，上课。没有
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
承德十大亲子鉴定医院名单(附2024年10所正规医院) 国医基因陈主任
承德哪家医院可以做亲子鉴定？承德市中心医院、中国人民解放军第二六六医院、承德医学院附属医院等都可以做常规亲子鉴定采样采集，一般的医院并不可以为你提供常规亲子鉴定检测的服务。承德亲子鉴定中心地址：承德市西大街路北11号（承德国医基因）。一般只有少数三甲医院可以做亲子鉴定采样，或者当地亲子鉴定中心可以做亲子鉴定。如果想做亲子鉴定，最好直接到亲子鉴定中心内或亲子鉴定医院采样点内进行双方抽血鉴定，这样会更
践行8.0~第六周11.25-12.02 初队长
突破后的喜悦最可怕的不是自己不清楚，而是自己清楚了，却依然不心动，我想这就是我们每个人的惰性存在，在这一周的践行，我发现自己依然是停留在自己的模式当中，不断的恶性的轮回，虽然的话，那再晨间日记方面是纸质的填写，但是对一天的工作没有起到应有的计划和推动的作用而我自己呢，也有些时候的话会处于一个相对来讲放松的一个状态，时间的把控的话也有一些点的消极，所以在这周的间隙，重点是关注自己的三大目标为目标来进
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
打造自己的梦想生态系统轻风style
今天听了第5周5.1的梦想系统和随堂练习：梦想仓库与八大关注表。参照老师给出的例子，列出了八大关注对应的自己的梦想。有些写的时候内心都在怀疑，但因为老师有说到，要没有分别心的去列出，不管是近的，远的，小的，大的，自己觉得可以实现的，或者觉得根本不可能实现的，都统统的列出来。就像音频中提到的，林语堂说过的话，梦想无论怎样模糊，总潜伏在我们心底，使我们的心境永远得不到宁静，直到这些梦想成为事实才止；像
我是孩子妈妈，我会让孩子饿着吗？松玲子
回老家过年，就是一场在关于喂养孩子问题上与老人的巅峰对决。前天我们回老家了，他爷爷奶奶就说孩子瘦了，就说我喂的不好，不按时喂，第一天夜里孩子总是睡一会就哭，睡一会就哭，夜里不知醒了多少次，弄得我真是几乎彻夜未眠。一大早，我还没起，我就听见他爷爷奶奶在外边说，今黑夜阳阳怎么老哭，是不是饿的，然后又延伸到我喂养的问题上，说不吃盐不行，不吃盐孩子没劲，吃蛋光吃个蛋黄，吃不饱，给他吃全蛋就行，哎呀我去，我
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
京东中秋节会打折吗？京东中秋节活动力度大吗？高省APP珊珊
京东中秋节会打折，并且活动力度通常是比较大的。以下是具体分析：京东中秋节打折情况降价促销：京东在中秋节期间会推出大规模的降价促销活动，涵盖食品、家居、家电等多个品类，以及众多热门品牌。消费者可以在此期间享受到实实在在的降价优惠。多种优惠形式：除了直接的降价促销，京东还会通过满减优惠、折扣促销、限时秒杀等多种形式的优惠活动来吸引消费者。这些优惠活动通常具有较高的吸引力，能够激发消费者的购买欲望。目前
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
农场种蔬菜赚钱小游戏有哪些五大可以赚钱的小游戏APP 氧惠帮朋友一起省
喜欢种菜吗？我特意带来农场种蔬菜赚钱小游戏排行榜2022，线上汇集了超多模拟种菜玩法，玩家可以免费种植赚钱哦！每天都有大量的种植任务，线上完成就能赚钱哦！快来下载吧！1.氧惠APP购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多少，非常厉害)，欢迎各位
严重的DDoS 攻击澳大利亚主要宽带提供商 Fancy1816575412
本周早些时候，澳大利亚最大的固定无线宽带运营商CirrusCommunications遭受了一次重大的DDoS攻击，导致其一半以上的网络瘫痪。该公司在其网站上声称：“强大的架构、数百个传输站点以及光纤和微波回程的使用使其能够以非常高的正常运行时间提供高速”。CirrusCommunications表示，它覆盖了澳大利亚十大人口中心以及几个主要的区域中心，主要为企业和政府客户提供服务。然而，据The
3次创业身价百亿，2年前却被大众判“死刑”，李想如今怎样了？职心眼儿
他，19岁放弃高考去创业；25岁，成为亿万富豪，被央视评为“80后创业”领军人物；39岁，身价再次暴涨，一夜间闯过200亿大关。他，在3个领域连续创业20年，一家公司市值700亿，一家公司市值2000亿。而他的最高学历，却只有高中。这个人，就是理想汽车的创始人——李想。纵观李想的创业史，可谓是颇为传奇：一个既没背景，又没资金高中毕业生，怎么就让3位互联网巨头（张一鸣、王兴、程维）同时为自己站台？更
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D