【慢摹】TRL训练器细节详解（SFT/PPO/DPO/GRPO）

序言

本文总结一下目前TRL典型的训练器的实现细节（SFT，PPO，DPO，GRPO），也是对上一文【速写】PPOTrainer样例与错误思考（少量DAPO）的补充

目前DeepSeek关于各个训练器细节的掌握，尤其是PPOTrainer的问题，依然回答得很差，这个在上文中已经详细指出，它写的代码大多数都是跑不通的，而官方给出的PPO示例（ppo.py）似乎也有一些瑕疵，本文将会一一指出与各位探讨。

目前笔者写了一个对于4个典型训练器（SFT，PPO，DPO，GRPO）都适用的一个base_pipeline，以及对应的单元测试模块，其中PPOTrainer是最为繁琐的一个训练器，它需要更多的模型（奖励模型，价值模型，参考模型），并且对应的训练数据集train_dataset的处理方式与其他训练器存在显著区别。根据这份base_pipeline的代码，我将逐一探讨TRL训练器中的细节问题，谨以抛砖引玉，欢迎探讨。

文章目录

序言
1 TRL通用的训练器Pipeline测试及其细节说明
- 1.1 训练配置参数的设置（Config）
- 1.2 加载分词器与模型（tokenizer & model）
- 1.3 数据集分割与字段问题（dataset）
- 1.4 训练与保存（checkpoint）
- 1.5 单元测试
2 一些其他的问题
- 2.1 DataProcessor与DataCollator
- - 2.1.1 `dataset.map(prompt_formatter)`:
  - 2.1.2 `data_collator`:
  - 2.1.3 何时选择哪种方式？
- 2.2 关于PartialState
- - 2.2.1 核心功能
  - 2.2.2 典型使用场景
  - 2.2.3 参数与底层机制
  - 2.2.4 与类似方法的区别
  - 2.2.5 完整示例（分布式训练中的数据加载）
  - 2.2.6 注意事项
  - 2.2.7 总结
- 2.3 DPO和PPO的reference_model的区别
- - 2.3.1 DPO的核心思想与Reference Model的作用
  - 2.3.2 **为什么DPO需要Reference Model，尽管它不是RL？**
  - 2.3.3 TRL的DPOTrainer中的`ref_model`
  - 2.3.4 **DPO vs PPO的Reference Model**
  - 2.3.5 **如果没有Reference Model会怎样？**

1 TRL通用的训练器Pipeline测试及其细节说明

完整的项目在GitHub@caoyang-sufe/easyllm，以下我们先来看下面代码中的base_pipeline，其他4个pipeline（sft_pipeline，ppo_pipeline，dpo_pipeline，grpo_pipeline）都是直接调用它使用。

对应的脚本在trainer.py

这个pipeline很重要，接下来所有的讨论都是围绕它逐行展开的。

# -*- coding: utf8 -*-
# @author: caoyang
# @email: [email protected]

import wandb
import logging
from copy import deepcopy
from datasets import load_dataset
from transformers import AutoModelForCausalLM, AutoModelForSequenceClassification, AutoTokenizer, BitsAndBytesConfig, TrainingArguments, HfArgumentParser
from peft import LoraConfig, prepare_model_for_kbit_training, get_peft_model
from trl import (
	ScriptArguments, ModelConfig, 
	SFTConfig, SFTTrainer,
	PPOConfig, PPOTrainer,
	DPOConfig, DPOTrainer,
	GRPOConfig, GRPOTrainer,
	get_peft_config, get_quantization_config,
)
from trl.trainer.utils import SIMPLE_CHAT_TEMPLATE
from src.tools.trl import update_trl_config, generate_simple_data_processor

# Trainer Pipeline
# @param name: [Str] e.g. "SFT", "PPO", "DPO", "GRPO"
# @param data_processor: Function object prepared for `dataset.map(data_processor)`
# @param trainer_config: [Dict, peft.XXXConfig] including keyword arguments, e.g. 
# @param model_config: [Dict, peft.ModelConfig] including keyword arguments, e.g. 
# @param script_arguments: [Dict, peft.ScriptArguments] including keyword arguments, e.g. "dataset_name", "dataset_train_split", "dataset_test_split"
# @param config_kwargs: [Dict] keyword arguments for updating TRL-Config, `ScriptArguments`, `ModelConfig`
#   - keyword arguments for `TRLConfig`: e.g. "output_dir", "adam_xxx", "learning_rate", "kl_coef", "push_to_hub"
#   - keyword arguments for `ScriptArguments`: e.g. "output_dir", "adam_xxx", "learning_rate", "kl_coef", "push_to_hub"
#   - keyword arguments for `ModelConfig`: e.g. "model_name_or_path", "torch_dtype", "trust_remote_code", "use_peft", "lora_xxx", "load_in_4bit", "bnb_4bit_compute_dtype", "bnb_4bit_quant_type"
# @param trainer_kwargs: [Dict] keyword arguments for updating TRL-Trainer
#   - keyword arguments for all Trainers: e.g. "data_collator", "callbacks"
#   - keyword arguments for `SFTTrainer`: e.g. "compute_loss_func", "compute_metrics"
#   - keyword arguments for `PPOTrainer`: e.g. "ref_model[required]", "reward_model[required]", "value_model[required]"
#   - keyword arguments for `DPOTrainer`: e.g. "ref_model"
#   - keyword arguments for `GRPOTrainer`: e.g. "reward_funcs[required]"
def base_pipeline(name, data_processor, config_kwargs, trainer_kwargs):
	# 1 Configuration
	TRLConfig, TRLTrainer = eval(f"{name}Config"), eval(f"{name}Trainer")
	parser = HfArgumentParser((ScriptArguments, TRLConfig, ModelConfig))
	script_arguments, trainer_config, model_config = parser.parse_args_into_dataclasses()
	script_arguments = update_trl_config(script_arguments, **config_kwargs)
	trainer_config = update_trl_config(trainer_config, **config_kwargs)
	model_config = update_trl_config(model_config, **config_kwargs)
	peft_config = get_peft_config(model_config)
	quantization_config = get_quantization_config(model_config)
	# 2 Load models and tokenizer
	logging.info("Load models and tokenizer ...")
	logging.info(f"  - Model: {model_config.model_name_or_path}")
	tokenizer = AutoTokenizer.from_pretrained(model_config.model_name_or_path)
	if not "pad_token" in tokenizer.special_tokens_map:
		tokenizer.add_special_tokens({"pad_token": "[PAD]"})
	if tokenizer.chat_template is None:
		tokenizer.chat_template = SIMPLE_CHAT_TEMPLATE
	model = AutoModelForCausalLM.from_pretrained(
		model_config.model_name_or_path,
		device_map = "auto",
		trust_remote_code = model_config.trust_remote_code,
		quantization_config = quantization_config,
	)
	if peft_config is not None:
		logging.info("Prepare model for PEFT ...")
		model.config.pretraining_tp = 1
		model.config.use_cache = False
		model.gradient_checkpointing_enable()
		# If `prepare_model_for_kbit_training` is ignored, and `gradient_checkpointing = True` (for GPU memory saving)
		# Then you need set `model.enable_input_require_grads()` yourself
		# model = prepare_model_for_kbit_training(model)
		model.enable_input_require_grads()
		model = get_peft_model(model, peft_config)
	if name == "PPO":
		logging.info("PPO load reward value and reference models ...")
		# PPO is special! It needs more components!
		logging.info(f"  - Reward model: {trainer_config.reward_model_path}")
		reward_model = AutoModelForSequenceClassification.from_pretrained(
			trainer_config.reward_model_path,
			trust_remote_code = model_config.trust_remote_code,
			num_labels = 1,
		)
		value_model = AutoModelForSequenceClassification.from_pretrained(
			trainer_config.reward_model_path,
			trust_remote_code = model_config.trust_remote_code,
			num_labels = 1,
		)
		logging.info("  - Copy reference model ...")
		ref_model = deepcopy(model)
		# ref_model = model.__class__(model.config)
		# ref_model.load_state_dict(model.state_dict())
		trainer_kwargs["reward_model"] = reward_model
		trainer_kwargs["value_model"] = value_model
		trainer_kwargs["ref_model"] = ref_model
		logging.info("  - Done!")
		if data_processor is None:
			# The data processor of PPO is also different to others
			def data_processor(_data):
				outputs = tokenizer(_data["prompt"] + _data["completion"], padding = False)
				return {"input_ids": outputs["input_ids"]}
	# 2 Load dataset
	logging.info("Load dataset ...")
	logging.info(f"  - Dataset: {script_arguments.dataset_name}")
	if data_processor is None:
		data_processor = generate_simple_data_processor(name)
	train_dataset = load_dataset(script_arguments.dataset_name, split=script_arguments.dataset_train_split)
	eval_dataset = load_dataset(script_arguments.dataset_name, split=script_arguments.dataset_test_split)
	train_dataset = train_dataset.map(data_processor, remove_columns=train_dataset.column_names)
	eval_dataset = eval_dataset.map(data_processor, remove_columns=eval_dataset.column_names)
	logging.info(f"  - Train dataset: {len(train_dataset)}")
	logging.info(f"  - Eval dataset: {len(eval_dataset)}")
	# 4 Train model
	logging.info("Trainer starts ...")
	trainer = TRLTrainer(
		model = model,
		args = trainer_config,
		train_dataset = train_dataset,
		eval_dataset = eval_dataset,
		processing_class = tokenizer,
		peft_config = peft_config,
		**trainer_kwargs
	)
	trainer.train()
	logging.info("  - Trainer finishes!")
	# 5 Save model
	if trainer_config.push_to_hub:
		logging.info(f"  - Push checkpoints to {trainer_config.organization}/{trainer_config.push_to_hub_model_id}")
		trainer.push_to_hub()
	logging.info(f"Save model to {trainer_config.output_dir}")
	trainer.save_model(trainer_config.output_dir)
# SFT Pipeline
def sft_pipeline(data_processor, config_kwargs, trainer_kwargs):
	base_pipeline(
		name = "SFT",
		data_processor = data_processor,
		config_kwargs = config_kwargs,
		trainer_kwargs = trainer_kwargs,
	)
# PPO Pipeline
def ppo_pipeline(data_processor, config_kwargs, trainer_kwargs):
	base_pipeline(
		name = "PPO",
		data_processor = data_processor,
		config_kwargs = config_kwargs,
		trainer_kwargs = trainer_kwargs,
	)
# DPO Pipeline
def dpo_pipeline(data_processor, config_kwargs, trainer_kwargs):
	base_pipeline(
		name = "DPO",
		data_processor = data_processor,
		config_kwargs = config_kwargs,
		trainer_kwargs = trainer_kwargs,
	)
# GRPO Pipeline
def grpo_pipeline(data_processor, config_kwargs, trainer_kwargs):
		base_pipeline(
		name = "GRPO",
		data_processor = data_processor,
		config_kwargs = config_kwargs,
		trainer_kwargs = trainer_kwargs,
	)

对应的单元测试脚本在trainer_pipelines.py，这里面涉及3个模型和4个数据集，都可以在huggingface上直接下载得到，model_home和dataset_home可根据本地路径进行修改。

# -*- coding: utf8 -*-
# @author: caoyang
# @email: [email protected]

import os
import logging
from src.pipelines.trainer import base_pipeline, sft_pipeline, ppo_pipeline, dpo_pipeline, grpo_pipeline

model_home = "/nfsshare/home/caoyang/resource/model"
dataset_home = "/nfsshare/home/caoyang/resource/dataset"
model_names = [
	"Qwen/Qwen2.5-0.5B-Instruct",
	"EleutherAI/pythia-1b-deduped",
	"EleutherAI/pythia-160m",
]

dataset_names = [
	"trl-lib/tldr",	# train["prompt", "completion"] + validation["prompt", "completion"] + test["prompt", "completion"]
	"trl-lib/ultrafeedback_binarized",	# train["chosen", "rejected", "score_chosen", "score_rejected"] + test["chosen", "rejected", "score_chosen", "score_rejected"]
	"trl-internal-testing/descriptiveness-sentiment-trl-style", # sentiment["prompt", "chosen", "rejected"] + descriptiveness["prompt", "chosen", "rejected"]
	"YeungNLP/firefly-train-1.1M", # train["input", "target"]
]

def sft_pipeline_test():
	logging.info("SFT unittest ...")
	model_name_or_path = os.path.join(model_home, model_names[0])
	dataset_name = os.path.join(dataset_home, dataset_names[0])
	data_processor = None
	config_kwargs = {
		"output_dir": f"./temp/sft+{model_name_or_path.split('/')[-1]}+{dataset_name.split('/')[-1]}",
		"model_name_or_path": model_name_or_path,
		"dataset_name": dataset_name,
		"trust_remote_code": True,
		"dataset_train_split": "train[:500]",
		"dataset_test_split": "validation[500:600]",
		"use_peft": True,
		"report_to": "none",
		"lora_target_modules": ["q_proj", "k_proj", "v_proj"]
	}
	trainer_kwargs = {
	}
	sft_pipeline(data_processor, config_kwargs, trainer_kwargs)

def ppo_pipeline_test():
	logging.info("PPO unittest ...")
	model_name_or_path = os.path.join(model_home, model_names[1])
	"""
	EleutherAI/pythia-1b-deduped
	GPTNeoXForCausalLM(
	  (gpt_neox): GPTNeoXModel(
		(embed_in): Embedding(50304, 2048)
		(emb_dropout): Dropout(p=0.0, inplace=False)
		(layers): ModuleList(
		  (0-15): 16 x GPTNeoXLayer(
			(input_layernorm): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)
			(post_attention_layernorm): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)
			(post_attention_dropout): Dropout(p=0.0, inplace=False)
			(post_mlp_dropout): Dropout(p=0.0, inplace=False)
			(attention): GPTNeoXAttention(
			  (query_key_value): Linear(in_features=2048, out_features=6144, bias=True)
			  (dense): Linear(in_features=2048, out_features=2048, bias=True)
			)
			(mlp): GPTNeoXMLP(
			  (dense_h_to_4h): Linear(in_features=2048, out_features=8192, bias=True)
			  (dense_4h_to_h): Linear(in_features=8192, out_features=2048, bias=True)
			  (act): GELUActivation()
			)
		  )
		)
		(final_layer_norm): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)
		(rotary_emb): GPTNeoXRotaryEmbedding()
	  )
	  (embed_out): Linear(in_features=2048, out_features=50304, bias=False)
	)
	"""
	dataset_name = os.path.join(dataset_home, dataset_names[0])
	reward_model_path = os.path.join(model_home, model_names[2])
	data_processor = None
	config_kwargs = {
		"output_dir": f"./temp/ppo+{model_name_or_path.split('/')[-1]}+{dataset_name.split('/')[-1]}",
		"model_name_or_path": model_name_or_path,
		"dataset_name": dataset_name,
		"reward_model_path": reward_model_path,
		"trust_remote_code": True,
		"dataset_train_split": "train[:500]",
		"dataset_test_split": "validation[:100]",
		"use_peft": True,
		"report_to": "none",
		"lora_target_modules": ["query_key_value"],
	}
	trainer_kwargs = {
	}
	ppo_pipeline(data_processor, config_kwargs, trainer_kwargs)

def dpo_pipeline_test():
	logging.info("DPO unittest ...")
	model_name_or_path = os.path.join(model_home, model_names[0])
	dataset_name = os.path.join(dataset_home, dataset_names[2])
	data_processor = None
	config_kwargs = {
		"output_dir": f"./temp/dpo+{model_name_or_path.split('/')[-1]}+{dataset_name.split('/')[-1]}",
		"model_name_or_path": model_name_or_path,
		"dataset_name": dataset_name,
		"trust_remote_code": True,
		"dataset_train_split": "descriptiveness[:500]",
		"dataset_test_split": "descriptiveness[500:600]",
		"use_peft": True,
		"report_to": "none",
		"lora_target_modules": ["q_proj", "k_proj", "v_proj"]
	}
	trainer_kwargs = {
	}
	dpo_pipeline(data_processor, config_kwargs, trainer_kwargs)

def grpo_pipeline_test():
	logging.info("GRPO unittest ...")
	model_name_or_path = os.path.join(model_home, model_names[0])
	dataset_name = os.path.join(dataset_home, dataset_names[0])
	data_processor = None
	def reward_funcs(completions, **kwargs):
		return [float(len(set(completion))) for completion in completions]
	config_kwargs = {
		"output_dir": f"./temp/grpo+{model_name_or_path.split('/')[-1]}+{dataset_name.split('/')[-1]}",
		"model_name_or_path": model_name_or_path,
		"dataset_name": dataset_name,
		"trust_remote_code": True,
		"dataset_train_split": "train[:500]",
		"dataset_test_split": "validation[:100]",
		"use_peft": True,
		"report_to": "none",
		"lora_target_modules": ["q_proj", "k_proj", "v_proj"]
	}
	trainer_kwargs = {
		"reward_funcs": reward_funcs,
	}
	grpo_pipeline(data_processor, config_kwargs, trainer_kwargs)

目前单元测试都能通过，关键库版本如下：

accelerate==1.6.0
datasets==3.5.0
peft==0.15.2
torch==2.5.1
transformers==4.51.3
trl==0.17.0

1.1 训练配置参数的设置（Config）

目前模型训练涉及的参数非常的广泛，以前搭积木时代训练模型时，我们一般会自定义一个Config类用于管理与模型、训练、数据集等相关的参数，但目前Transformers提供了非常好的工具HfArgumentParser用于管理这些繁杂的参数，根据官方给出的PPO示例（ppo.py）中的写法

parser = HfArgumentParser((ScriptArguments, PPOConfig, ModelConfig))
script_args, training_args, model_args = parser.parse_args_into_dataclasses()

将所有参数分为三类：ScriptArguments, PPOConfig, ModelConfig

使用HfArgumentParser解析参数的逻辑是（这个过程没有读源码，可能实际上略有出入，但是结果应该是一致的），首先使用默认值初始化ScriptArguments, PPOConfig, ModelConfig对应的三个对象，然后将执行脚本中传入的参数按名称对应分配给每个对象。

例如，在PPO的例子的执行脚本中：

python -i examples/scripts/ppo/ppo.py \
    --dataset_name trl-internal-testing/descriptiveness-sentiment-trl-style \
    --dataset_train_split descriptiveness \
    --learning_rate 3e-6 \
    --output_dir models/minimal/ppo \
    --per_device_train_batch_size 64 \
    --gradient_accumulation_steps 1 \
    --total_episodes 10000 \
    --model_name_or_path EleutherAI/pythia-1b-deduped \
    --missing_eos_penalty 1.0

会将dataset_name和dataset_train_split的值更新给script_args，learning_rate 和output_dir的值更新给model_args，

不妨可以看看script_args, training_args, model_args分别包含了哪些参数：

script_args

ScriptArguments(
	dataset_name=None, 
	dataset_config=None, 
	dataset_train_split='train', 
	dataset_test_split='test', 
	gradient_checkpointing_use_reentrant=False, 
	ignore_bias_buffers=False，
)

training_args（即ppo_config）

PPOConfig(
	output_dir='trainer_output',
	overwrite_output_dir=False,
	do_train=False,
	do_eval=False,
	do_predict=False,
	eval_strategy=<IntervalStrategy.NO: 'no'>,
	prediction_loss_only=False,
	per_device_train_batch_size=8,
	per_device_eval_batch_size=8,
	per_gpu_train_batch_size=None,
	per_gpu_eval_batch_size=None,
	gradient_accumulation_steps=1,
	eval_accumulation_steps=None,
	eval_delay=0,
	torch_empty_cache_steps=None,
	learning_rate=5e-05,
	weight_decay=0.0,
	adam_beta1=0.9,
	adam_beta2=0.999,
	adam_epsilon=1e-08,
	max_grad_norm=1.0,
	num_train_epochs=3.0,
	max_steps=-1,
	lr_scheduler_type=<SchedulerType.LINEAR: 'linear'>,
	lr_scheduler_kwargs={},
	warmup_ratio=0.0,
	warmup_steps=0,
	log_level='passive',
	log_level_replica='warning',
	log_on_each_node=True,
	logging_dir='trainer_output\\runs\\Jun14_11-14-00_LAPTOP-PJP6MGE1',
	logging_strategy=<IntervalStrategy.STEPS: 'steps'>,
	logging_first_step=False,
	logging_steps=500,
	logging_nan_inf_filter=True,
	save_strategy=<SaveStrategy.STEPS: 'steps'>,
	save_steps=500,
	save_total_limit=None,
	save_safetensors=True,
	save_on_each_node=False,
	save_only_model=False,
	restore_callback_states_from_checkpoint=False,
	no_cuda=False,
	use_cpu=False,
	use_mps_device=False,
	seed=42,
	data_seed=None,
	jit_mode_eval=False,
	use_ipex=False,
	bf16=False,
	fp16=False,
	fp16_opt_level='O1',
	half_precision_backend='auto',
	bf16_full_eval=False,
	fp16_full_eval=False,
	tf32=None,
	local_rank=0,
	ddp_backend=None,
	tpu_num_cores=None,
	tpu_metrics_debug=False,
	debug=[],
	dataloader_drop_last=False,
	eval_steps=None,
	dataloader_num_workers=0,
	dataloader_prefetch_factor=None,
	past_index=-1,
	run_name='trainer_output',
	disable_tqdm=False,
	remove_unused_columns=True,
	label_names=None,
	load_best_model_at_end=False,
	metric_for_best_model=None,
	greater_is_better=None,
	ignore_data_skip=False,
	fsdp=[],
	fsdp_min_num_params=0,
	fsdp_config={'min_num_params': 0,
	'xla': False,
	'xla_fsdp_v2': False,
	'xla_fsdp_grad_ckpt': False},
	fsdp_transformer_layer_cls_to_wrap=None,
	accelerator_config=AcceleratorConfig(split_batches=False,
	dispatch_batches=None,
	even_batches=True,
	use_seedable_sampler=True,
	non_blocking=False,
	gradient_accumulation_kwargs=None,
	use_configured_state=False),
	deepspeed=None,
	label_smoothing_factor=0.0,
	optim=<OptimizerNames.ADAMW_TORCH: 'adamw_torch'>,
	optim_args=None,
	adafactor=False,
	group_by_length=False,
	length_column_name='length',
	report_to=['wandb'],
	ddp_find_unused_parameters=None,
	ddp_bucket_cap_mb=None,
	ddp_broadcast_buffers=None,
	dataloader_pin_memory=True,
	dataloader_persistent_workers=False,
	skip_memory_metrics=True,
	use_legacy_prediction_loop=False,
	push_to_hub=False,
	resume_from_checkpoint=None,
	hub_model_id=None,
	hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>,
	hub_token=None,
	hub_private_repo=None,
	hub_always_push=False,
	gradient_checkpointing=False,
	gradient_checkpointing_kwargs=None,
	include_inputs_for_metrics=False,
	include_for_metrics=[],
	eval_do_concat_batches=True,
	fp16_backend='auto',
	push_to_hub_model_id=None,
	push_to_hub_organization=None,
	push_to_hub_token=None,
	mp_parameters='',
	auto_find_batch_size=False,
	full_determinism=False,
	torchdynamo=None,
	ray_scope='last',
	ddp_timeout=1800,
	torch_compile=False,
	torch_compile_backend=None,
	torch_compile_mode=None,
	include_tokens_per_second=False,
	include_num_input_tokens_seen=False,
	neftune_noise_alpha=None,
	optim_target_modules=None,
	batch_eval_metrics=False,
	eval_on_start=False,
	use_liger_kernel=False,
	eval_use_gather_object=False,
	average_tokens_across_devices=False,
	dataset_num_proc=None,
	num_mini_batches=1,
	total_episodes=None,
	local_rollout_forward_batch_size=64,
	num_sample_generations=10,
	response_length=53,
	stop_token=None,
	stop_token_id=None,
	temperature=0.7,
	missing_eos_penalty=None,
	sft_model_path='EleutherAI/pythia-160m',
	world_size=None,
	num_total_batches=None,
	micro_batch_size=None,
	local_batch_size=None,
	batch_size=None,
	local_mini_batch_size=None,
	mini_batch_size=None,
	exp_name='ppo_config',
	reward_model_path='EleutherAI/pythia-160m',
	model_adapter_name=None,
	ref_adapter_name=None,
	num_ppo_epochs=4,
	whiten_rewards=False,
	kl_coef=0.05,
	kl_estimator='k1',
	cliprange=0.2,
	vf_coef=0.1,
	cliprange_value=0.2,
	gamma=1.0,
	lam=0.95,
	ds3_gather_for_generation=True
)

model_args

ModelConfig(
	model_name_or_path=None, 
	model_revision='main', 
	torch_dtype=None, 
	trust_remote_code=False, 
	attn_implementation=None, 
	use_peft=False, 
	lora_r=16, 
	lora_alpha=32, 
	lora_dropout=0.05, 
	lora_target_modules=None, 
	lora_modules_to_save=None, 
	lora_task_type='CAUSAL_LM', 
	use_rslora=False, 
	use_dora=False, 
	load_in_8bit=False, 
	load_in_4bit=False, 
	bnb_4bit_quant_type='nf4', 
	use_bnb_nested_quant=False,
)

其中：

script_args：主要控制数据集的参数。特别地，dataset_name是required，但这个事情比较奇怪
- 如果是在Linux上使用脚本启动的话是必须传入--dataset_name或者--dataset-name参数的，否则会显示 error: the following arguments are required: --dataset_name/--dataset-name（transformers==4.51.3, trl==0.17.0）
- 在Windows系统上即使不传入任何参数也是不会报错的（transformers==4.52.4, trl==0.18.1，比Linux上的版本要高一点，但应该不是版本问题）。
training_args：即PPOConfig的对象，对应PPOTrainer中的args参数，其中包含了非常多与训练参数，具体每个训练器及其配置的参数列表可以直接到HuggingFace上的TRL文档查看（https://huggingface.co/docs/trl），这里例举常用的参数：
- output_dir：模型checkpoint导出的路径,
- adam_xxx：Adam优化器相关的参数，似乎TRL里所有Trainer的默认优化器都是Adam，不过是可以在PPOTrainer的参数中定义优化器的（PPOTrainer的优化器参数optimizers是需要传入两个变量（optimizers (tuple[torch.optim.Optimizer, torch.optim.lr_scheduler.LambdaLR]）），一个是优化器，另一个是学习率的规划器。
- learning_rate：学习率,
- kl_coef：KL散度的惩罚系数，越大相当于策略更新幅度越小，越小策略就可能更新幅度越快,
model_args对应的是PPOTrainer的peft_config参数，里面也有一些和模型初始化相关的参数，包括量化与PEFT相关的参数也是从中提取得到的，比如在base_pipeline脚本中：

...
# Trainer Pipeline
# @param name: [Str] e.g. "SFT", "PPO", "DPO", "GRPO"
# @param data_processor: Function object prepared for `dataset.map(data_processor)`
# @param trainer_config: [Dict, peft.XXXConfig] including keyword arguments, e.g. 
# @param model_config: [Dict, peft.ModelConfig] including keyword arguments, e.g. 
# @param script_arguments: [Dict, peft.ScriptArguments] including keyword arguments, e.g. "dataset_name", "dataset_train_split", "dataset_test_split"
# @param config_kwargs: [Dict] keyword arguments for updating TRL-Config, `ScriptArguments`, `ModelConfig`
#   - keyword arguments for `TRLConfig`: e.g. "output_dir", "adam_xxx", "learning_rate", "kl_coef", "push_to_hub"
#   - keyword arguments for `ScriptArguments`: e.g. "output_dir", "adam_xxx", "learning_rate", "kl_coef", "push_to_hub"
#   - keyword arguments for `ModelConfig`: e.g. "model_name_or_path", "torch_dtype", "trust_remote_code", "use_peft", "lora_xxx", "load_in_4bit", "bnb_4bit_compute_dtype", "bnb_4bit_quant_type"
# @param trainer_kwargs: [Dict] keyword arguments for updating TRL-Trainer
#   - keyword arguments for all Trainers: e.g. "data_collator", "callbacks"
#   - keyword arguments for `SFTTrainer`: e.g. "compute_loss_func", "compute_metrics"
#   - keyword arguments for `PPOTrainer`: e.g. "ref_model[required]", "reward_model[required]", "value_model[required]"
#   - keyword arguments for `DPOTrainer`: e.g. "ref_model"
#   - keyword arguments for `GRPOTrainer`: e.g. "reward_funcs[required]"
def base_pipeline(name, data_processor, config_kwargs, trainer_kwargs):
	# 1 Configuration
	TRLConfig, TRLTrainer = eval(f"{name}Config"), eval(f"{name}Trainer")
	parser = HfArgumentParser((ScriptArguments, TRLConfig, ModelConfig))
	script_arguments, trainer_config, model_config = parser.parse_args_into_dataclasses()
	script_arguments = update_trl_config(script_arguments, **config_kwargs)
	trainer_config = update_trl_config(trainer_config, **config_kwargs)
	model_config = update_trl_config(model_config, **config_kwargs)
	peft_config = get_peft_config(model_config)
	quantization_config = get_quantization_config(model_config)
	...

peft_config和quantization_config都是可以现成的函数生成的，它们被定义在trl项目根目录下的trainer/utils.py中：

def get_quantization_config(model_args: ModelConfig) -> Optional[BitsAndBytesConfig]:
	if model_args.load_in_4bit:
		quantization_config = BitsAndBytesConfig(
			load_in_4bit=True,
			bnb_4bit_compute_dtype=model_args.torch_dtype,  # For consistency with model weights, we use the same value as `torch_dtype`
			bnb_4bit_quant_type=model_args.bnb_4bit_quant_type,
			bnb_4bit_use_double_quant=model_args.use_bnb_nested_quant,
			bnb_4bit_quant_storage=model_args.torch_dtype,
		)
	elif model_args.load_in_8bit:
		quantization_config = BitsAndBytesConfig(
			load_in_8bit=True,
		)
	else:
		quantization_config = None
	return quantization_config

def get_peft_config(model_args: ModelConfig) -> "Optional[PeftConfig]":
    if model_args.use_peft is False:
        return None

    if not is_peft_available():
        raise ValueError(
            "You need to have PEFT library installed in your environment, make sure to install `peft`. "
            "Make sure to run `pip install -U peft`."
        )
    peft_config = LoraConfig(
        task_type=model_args.lora_task_type,
        r=model_args.lora_r,
        target_modules=model_args.lora_target_modules,
        lora_alpha=model_args.lora_alpha,
        lora_dropout=model_args.lora_dropout,
        bias="none",
        use_rslora=model_args.use_rslora,
        use_dora=model_args.use_dora,
        modules_to_save=model_args.lora_modules_to_save,
    )
    return peft_config

从上面的源码可以看出，如果model_config.use_peft=False，则默认不启用PEFT，得到的peft_config也就是None，同理是否采用量化取决于load_in_4bit和load_in_8bit是否至少有一个是True

1.2 加载分词器与模型（tokenizer & model）

回到base_pipeline中对应的部分：

	...
	# 2 Load models and tokenizer
	logging.info("Load models and tokenizer ...")
	logging.info(f"  - Model: {model_config.model_name_or_path}")
	tokenizer = AutoTokenizer.from_pretrained(model_config.model_name_or_path)
	if not "pad_token" in tokenizer.special_tokens_map:
		tokenizer.add_special_tokens({"pad_token": "[PAD]"})
	if tokenizer.chat_template is None:
		tokenizer.chat_template = SIMPLE_CHAT_TEMPLATE
	model = AutoModelForCausalLM.from_pretrained(
		model_config.model_name_or_path,
		device_map = "auto",
		trust_remote_code = model_config.trust_remote_code,
		quantization_config = quantization_config,
	)
	if peft_config is not None:
		logging.info("Prepare model for PEFT ...")
		model.config.pretraining_tp = 1
		model.config.use_cache = False
		model.gradient_checkpointing_enable()
		# If `prepare_model_for_kbit_training` is ignored, and `gradient_checkpointing = True` (for GPU memory saving)
		# Then you need set `model.enable_input_require_grads()` yourself
		# model = prepare_model_for_kbit_training(model)
		model.enable_input_require_grads()
		model = get_peft_model(model, peft_config)
	...

这里主要是几个零碎的注意点：

分词器的词汇表中一定要包含pad_token，具体可以通过tokenizer.special_tokens_map，否则在后面trainer.train()时会报错，提示你设置pad_token
关于tokenizer.chat_template的问题，这个到接下来的数据处理部分会详细说明，针对对话类的任务，一般是会采用chat_template来处理数据集的，因此可以用trl.trainer.utils中提供的SIMPLE_CHAT_TEMPLATE作为缺省
模型可以通过量化加载（即quantization_config不为None时），这样会节约内存，此时一般都会做如下的设置（如果不是量化加载的话，可能加上这些配置也没什么关系，所以我就这么写了）
- 这里的pretraining_tp是张量并行的意思，数值越大，就会并行的数量越多，当然只有多卡才能并行，单卡只能设为1
- use_cache应该是指（大概）做model.generate()生成时是否进行kv_cache缓存
- model.enable_input_require_grads()也是节约内存的方法，我记得是缓存梯度以达到更快的反向传播运算的作用。

		...
		model.config.pretraining_tp = 1
		model.config.use_cache = False
		model.gradient_checkpointing_enable()
		# If `prepare_model_for_kbit_training` is ignored, and `gradient_checkpointing = True` (for GPU memory saving)
		# Then you need set `model.enable_input_require_grads()` yourself
		# model = prepare_model_for_kbit_training(model)
		model.enable_input_require_grads()
		...

然后对于PPOTrainer而言，非常特殊，它的构造参数还需要reward_model, value_model, ref_model三个参数，因此在base_pipeline中做了额外处理：

	if name == "PPO":
		logging.info("PPO load reward value and reference models ...")
		# PPO is special! It needs more components!
		logging.info(f"  - Reward model: {trainer_config.reward_model_path}")
		reward_model = AutoModelForSequenceClassification.from_pretrained(
			trainer_config.reward_model_path,
			trust_remote_code = model_config.trust_remote_code,
			num_labels = 1,
		)
		value_model = AutoModelForSequenceClassification.from_pretrained(
			trainer_config.reward_model_path,
			trust_remote_code = model_config.trust_remote_code,
			num_labels = 1,
		)
		logging.info("  - Copy reference model ...")
		ref_model = deepcopy(model)
		# ref_model = model.__class__(model.config)
		# ref_model.load_state_dict(model.state_dict())
		trainer_kwargs["reward_model"] = reward_model
		trainer_kwargs["value_model"] = value_model
		trainer_kwargs["ref_model"] = ref_model
		logging.info("  - Done!")

这里注意一下：

一般初始化ref_model和目标模型是完全一样的，这里测试了两种方法，一种是直接ref_model = deepcopy(model)，这确实是可行的，不会发生unpickled之类的问题，另一种方法则是重构一个和目标模型结构相同的空模型，然后加载状态字典：
```
  # ref_model = model.__class__(model.config)
  # ref_model.load_state_dict(model.state_dict())
```
这个方法在use_peft=False时是可行的，但是因为这里可能是一个peft_model，因此model.__class__的参数还需要一个peft_config，直接这样写是会报错的
使用HfArgumentParser加载PPOConfig参数时，ppo_config.reward_model_path是有默认值的（可以看上面的training_args），即'EleutherAI/pythia-160m'，这个奖励模型必须是可以被AutoModelForSequenceClassification类型加载的
value_model通常设置为和reward_model相同，至少在官方的PPO示例中是这样的，其实也可以解释，我的理解是：
$A (s, a) = Q (s, a) - V (s)$
中，这里 $V (s)$ 即value_model， $Q(s,a)=r(s,a)+\gamma V(s')$ 中的 $r (s, a)$ 即奖励函数，在CAUSAL_LM的语境下，其实就是句子 $s$ 加了一个单词 $a$ 后的奖励，本质上都是对一句话进行评分。虽然说得通，但是感觉也挺奇怪的。

1.3 数据集分割与字段问题（dataset）

目前主流的数据集加载都是直接用HuggingFace的datasets.load_dataset方法加载，标准的数据格式就是每个样本的格式为{“column_1”: , "column_2": }，整个数据集类似jsonl的格式。

针对目前已知的几个训练器，它们对数据集的格式要求大概是这样的：

SFTTrainer：字段要包含prompt和completion，注意，训练时只会在completion部分计算损失，prompt部分是不会计算损失的
- 但是其实我发现如果数据集中只有text或者input+target这种字段时也是可行的，需要仔细读源码才行。
DPOTrainer：这个就很简单，一般就是prompt+chosen+rejected，但是在官方示例使用的数据集trl-lib/ultrafeedback_binarized中，字段却是chosen, rejected, score_chosen, score_rejected，也就是说其实prompt可能并非必须，本来也确实可以直接用空字符串替代，然后数据集中如果没有回答进行评分的话，可能还有一个默认的评分机制在训练器里面。
GRPOTrainer：这个我也是根据官方示例来的，我看到它使用的数据集是trl-lib/tldr，这是一个典型的只有prompt和completion两个字段的数据集

PPOTrainer：这个最为特殊，之前DeepSeek一直写不对的原因也在于此

在官方给出的PPO运行脚本（ppo.py）中

    def prepare_dataset(dataset, tokenizer):
    """pre-tokenize the dataset before training; only collate during training"""
    def tokenize(element):
        outputs = tokenizer(
            element[dataset_text_field],
            padding=False,
        )
        return {"input_ids": outputs["input_ids"]}
    return dataset.map(
        tokenize,
        batched=True,
        remove_columns=dataset.column_names,
        num_proc=training_args.dataset_num_proc,
    )

注意到这里是直接处理成分词后的input_ids格式

但是，我本来以为PPO和GRPO是类似的，因此理论上在数据集的格式要求上应该也差不了太多，因此我觉得可能prompt+completion也是可行的，但是测试下来会报错，报错提示是一定要求是带input_ids字段的。

因此我单独给PPO写了一个数据处理的data_processor，而其余的都是很简单的：

# @param name: [Str] e.g. "SFT", "PPO", "DPO", "GRPO"
def generate_simple_data_processor(name, **kwargs):
	if name in ["SFT", "GRPO"]:
		def _data_processor(_data):
			return {"prompt": _data["prompt"], "completion": _data["completion"]}
	elif name == "PPO":
		tokenizer = kwargs.get("tokenizer")
		def _data_processor(_data):
			outputs = tokenizer(_data["prompt"] + _data["completion"], padding = False)
			return {"input_ids": outputs["input_ids"]}
	elif name == "DPO":
		def _data_processor(_data):
			return {"prompt": _data["prompt"], "chosen": _data["chosen"], "rejected": _data["rejected"]}
	else:
		raise NotImplementedError(name)
	return _data_processor

当然一些写法也会使用apply_chat_template，这通常是用于交互式对话任务，都是可行的：

		def _data_processor(_data):
			_message = [
				{"role": "system", "content": "You are an AI assistant developped by CY"},
				{"role": "user", "content": _data[dataset_input_column]},
				{"role": "assistant", "content": _data[dataset_target_column]},
			]
			_prompt = tokenizer.apply_chat_template(_message, tokenize=False)
			return {"text": _prompt}

然后一个小细节是在用dataset.map进行数据处理时一般会设置参数emove_columns=dataset.column_names，以丢弃原先不必要的字段，防止Trainer在运行时错用了其他的字段进行训练。

1.4 训练与保存（checkpoint）

base_pipeline中最后一部分训练完然后保存模型，顺利地话就完整地跑通：

	# 4 Train model
	logging.info("Trainer starts ...")
	trainer = TRLTrainer(
		model = model,
		args = trainer_config,
		train_dataset = train_dataset,
		eval_dataset = eval_dataset,
		processing_class = tokenizer,
		peft_config = peft_config,
		**trainer_kwargs
	)
	trainer.train()
	logging.info("  - Trainer finishes!")
	# 5 Save model
	if trainer_config.push_to_hub:
		logging.info(f"  - Push checkpoints to {trainer_config.organization}/{trainer_config.push_to_hub_model_id}")
		trainer.push_to_hub()
	logging.info(f"Save model to {trainer_config.output_dir}")
	trainer.save_model(trainer_config.output_dir)

这里值得注意的几个问题：

在trainer_config（即SFTConfig, PPOConfig, DPOConfig, GRPOConfig之类的对象）中，有一个参数trainer_config.report_to，这个不设置的话默认是会上传到W&B的，网络不支持访问的话是会在训练到checkpoint的时候发生网络错误的，因此一般会设置成"none"，或者也可以用"tensorboard"

不过就训练绘图的话，训练结束到trainer_config.output_dir中找到checkpoint-xxx文件夹，里面会有trainer_state.json文件，然后自己根据里面的数据绘图即可，例如：

# Plot dynamics of TRL trainer state
def plot_trl_dynamics(trainer_state_path):
	with open(trainer_state_path, 'r', encoding="utf8") as f:
		data = json.load(f)
	log_history = data["log_history"]
	steps = [entry["step"] for entry in log_history]
	episodes = [entry["episode"] for entry in log_history]
	epochs = [entry["epoch"] for entry in log_history]
	policy_loss = [entry["loss/policy_avg"] for entry in log_history]
	value_loss = [entry["loss/value_avg"] for entry in log_history]
	lrs = [entry["lr"] for entry in log_history]
	entropys = [entry["objective/entropy"] for entry in log_history]
	kls = [entry["objective/kl"] for entry in log_history]
	non_score_rewards = [entry["objective/non_score_reward"] for entry in log_history]
	rlhf_rewards = [entry["objective/rlhf_reward"] for entry in log_history]
	scores = [entry["objective/scores"] for entry in log_history]
	plt.figure(figsize=(8, 8))
	ax_1 = plt.subplot(2, 2, 1)
	ax_2 = plt.subplot(4, 2, 2)
	ax_3 = plt.subplot(4, 2, 4)
	ax_4 = plt.subplot(2, 2, 3)
	ax_5 = plt.subplot(2, 2, 4)
	ax_1.plot(steps, policy_loss, label="Policy Loss")
	ax_1.plot(steps, value_loss, label="Value Loss", linestyle="--")
	ax_1.set_xlabel("Step"), ax_1.set_ylabel("Loss"), ax_1.legend()
	ax_1.set_title("Policy and Value Loss")
	# ------------------------------------------------------------------
	ax_2.plot(steps, kls, label="objective/kl")
	ax_2.set_xlabel("Step"), ax_2.set_ylabel("KL"), ax_2.legend()
	ax_2.set_title("KL Curve")
	# ------------------------------------------------------------------
	ax_3.plot(steps, entropys, label="objective/entropy")
	ax_3.set_xlabel("Step"), ax_3.set_ylabel("Entropy"), ax_3.legend()
	ax_3.set_title("Entropy Curve")
	# ------------------------------------------------------------------
	ax_4.plot(steps, lrs, label="Learning Rate")
	ax_4.set_xlabel("Step"), ax_4.set_ylabel("Learning Rate"), ax_4.legend()
	ax_4.set_title("Learning Rate Curve")
	# ------------------------------------------------------------------
	ax_5.plot(steps, non_score_rewards, label="objective/non_score_reward", linestyle="--")
	ax_5.plot(steps, rlhf_rewards, label="objective/rlhf_reward", linestyle="--")
	ax_5.plot(steps, scores, label="objective/scores")
	ax_5.set_xlabel("Step"), ax_5.set_ylabel("Score/Reward"), ax_5.legend()
	ax_5.set_title("Reward and Score")
	plt.show()
	print(steps)
	print('-' * 64)
	print(episodes)
	print('-' * 64)
	print(epochs)

关于W&B的使用：如果网络支持，使用wandb确实也是不错的选择：

登录 wandb

方法 1：交互式登录（推荐）

运行以下代码，会弹出浏览器或要求输入 API Key：

import wandb
wandb.login()

然后按提示操作即可。

方法 2：直接提供 API Key

import wandb
wandb.login(key="your_api_key_here")  # 替换成你的 wandb API Key

⚠️ 注意：不要直接在代码里硬编码 API Key（特别是公开代码时），建议使用环境变量或配置文件。

方法 3：通过环境变量设置（适合脚本/服务器）

export WANDB_API_KEY=your_api_key_here

然后在 Python 中直接 wandb.init() 即可。

步骤 3：在 Trainer 中启用 wandb

方式 1：自动记录（默认）

HuggingFace Trainer 默认会使用 wandb（如果已安装并登录）：

from transformers import Trainer, TrainingArguments
training_args = TrainingArguments(
    output_dir="./results",
    report_to="wandb",  # 明确指定使用 wandb（默认已经是这样）
    logging_dir="./logs",
    # 其他训练参数...
)
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)
trainer.train()  # 自动记录到 wandb

方式 2：手动初始化 wandb（更灵活控制）

import wandb
# 初始化 wandb 并设置项目名称
wandb.init(project="my-ppo-project", name="experiment-1")
# 然后正常训练
trainer.train()
# 训练结束后（可选）
wandb.finish()

这样你可以自定义 wandb 的配置（如 project、name、config 等）。

额外配置（可选）

1. 记录超参数

config = {
    "learning_rate": 2e-5,
    "batch_size": 32,
    "epochs": 3,
}
wandb.init(project="my-project", config=config)

训练时，这些参数会显示在 wandb 面板中。

2. 自定义记录指标

# 在训练循环中记录自定义指标
wandb.log({"reward": current_reward, "loss": current_loss})

3. 恢复中断的训练

wandb.init(id="之前运行的ID", resume="must")

训练开始后，终端会显示类似：

Tracking run with wandb, view at https://wandb.ai/your-username/your-project/runs/xxx

打开链接即可查看实时训练数据。

1.5 单元测试

单元测试脚本trainer_pipelines.py：

# -*- coding: utf8 -*-
# @author: caoyang
# @email: [email protected]

import os
import logging
from src.pipelines.trainer import base_pipeline, sft_pipeline, ppo_pipeline, dpo_pipeline, grpo_pipeline

model_home = "/nfsshare/home/caoyang/resource/model"
dataset_home = "/nfsshare/home/caoyang/resource/dataset"
model_names = [
	"Qwen/Qwen2.5-0.5B-Instruct",
	"EleutherAI/pythia-1b-deduped",
	"EleutherAI/pythia-160m",
]

dataset_names = [
	"trl-lib/tldr",	# train["prompt", "completion"] + validation["prompt", "completion"] + test["prompt", "completion"]
	"trl-lib/ultrafeedback_binarized",	# train["chosen", "rejected", "score_chosen", "score_rejected"] + test["chosen", "rejected", "score_chosen", "score_rejected"]
	"trl-internal-testing/descriptiveness-sentiment-trl-style", # sentiment["prompt", "chosen", "rejected"] + descriptiveness["prompt", "chosen", "rejected"]
	"YeungNLP/firefly-train-1.1M", # train["input", "target"]
]

def sft_pipeline_test():
	logging.info("SFT unittest ...")
	model_name_or_path = os.path.join(model_home, model_names[0])
	dataset_name = os.path.join(dataset_home, dataset_names[0])
	data_processor = None
	config_kwargs = {
		"output_dir": f"./temp/sft+{model_name_or_path.split('/')[-1]}+{dataset_name.split('/')[-1]}",
		"model_name_or_path": model_name_or_path,
		"dataset_name": dataset_name,
		"trust_remote_code": True,
		"dataset_train_split": "train[:500]",
		"dataset_test_split": "validation[500:600]",
		"use_peft": True,
		"report_to": "none",
		"lora_target_modules": ["q_proj", "k_proj", "v_proj"]
	}
	trainer_kwargs = {
	}
	sft_pipeline(data_processor, config_kwargs, trainer_kwargs)

def ppo_pipeline_test():
	logging.info("PPO unittest ...")
	model_name_or_path = os.path.join(model_home, model_names[1])
	"""
	EleutherAI/pythia-1b-deduped
	GPTNeoXForCausalLM(
	  (gpt_neox): GPTNeoXModel(
		(embed_in): Embedding(50304, 2048)
		(emb_dropout): Dropout(p=0.0, inplace=False)
		(layers): ModuleList(
		  (0-15): 16 x GPTNeoXLayer(
			(input_layernorm): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)
			(post_attention_layernorm): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)
			(post_attention_dropout): Dropout(p=0.0, inplace=False)
			(post_mlp_dropout): Dropout(p=0.0, inplace=False)
			(attention): GPTNeoXAttention(
			  (query_key_value): Linear(in_features=2048, out_features=6144, bias=True)
			  (dense): Linear(in_features=2048, out_features=2048, bias=True)
			)
			(mlp): GPTNeoXMLP(
			  (dense_h_to_4h): Linear(in_features=2048, out_features=8192, bias=True)
			  (dense_4h_to_h): Linear(in_features=8192, out_features=2048, bias=True)
			  (act): GELUActivation()
			)
		  )
		)
		(final_layer_norm): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)
		(rotary_emb): GPTNeoXRotaryEmbedding()
	  )
	  (embed_out): Linear(in_features=2048, out_features=50304, bias=False)
	)
	"""
	dataset_name = os.path.join(dataset_home, dataset_names[0])
	reward_model_path = os.path.join(model_home, model_names[2])
	data_processor = None
	config_kwargs = {
		"output_dir": f"./temp/ppo+{model_name_or_path.split('/')[-1]}+{dataset_name.split('/')[-1]}",
		"model_name_or_path": model_name_or_path,
		"dataset_name": dataset_name,
		"reward_model_path": reward_model_path,
		"trust_remote_code": True,
		"dataset_train_split": "train[:500]",
		"dataset_test_split": "validation[:100]",
		"use_peft": True,
		"report_to": "none",
		"lora_target_modules": ["query_key_value"],
	}
	trainer_kwargs = {
	}
	ppo_pipeline(data_processor, config_kwargs, trainer_kwargs)

def dpo_pipeline_test():
	logging.info("DPO unittest ...")
	model_name_or_path = os.path.join(model_home, model_names[0])
	dataset_name = os.path.join(dataset_home, dataset_names[2])
	data_processor = None
	config_kwargs = {
		"output_dir": f"./temp/dpo+{model_name_or_path.split('/')[-1]}+{dataset_name.split('/')[-1]}",
		"model_name_or_path": model_name_or_path,
		"dataset_name": dataset_name,
		"trust_remote_code": True,
		"dataset_train_split": "descriptiveness[:500]",
		"dataset_test_split": "descriptiveness[500:600]",
		"use_peft": True,
		"report_to": "none",
		"lora_target_modules": ["q_proj", "k_proj", "v_proj"]
	}
	trainer_kwargs = {
	}
	dpo_pipeline(data_processor, config_kwargs, trainer_kwargs)

def grpo_pipeline_test():
	logging.info("GRPO unittest ...")
	model_name_or_path = os.path.join(model_home, model_names[0])
	dataset_name = os.path.join(dataset_home, dataset_names[0])
	data_processor = None
	def reward_funcs(completions, **kwargs):
		return [float(len(set(completion))) for completion in completions]
	config_kwargs = {
		"output_dir": f"./temp/grpo+{model_name_or_path.split('/')[-1]}+{dataset_name.split('/')[-1]}",
		"model_name_or_path": model_name_or_path,
		"dataset_name": dataset_name,
		"trust_remote_code": True,
		"dataset_train_split": "train[:500]",
		"dataset_test_split": "validation[:100]",
		"use_peft": True,
		"report_to": "none",
		"lora_target_modules": ["q_proj", "k_proj", "v_proj"]
	}
	trainer_kwargs = {
		"reward_funcs": reward_funcs,
	}
	grpo_pipeline(data_processor, config_kwargs, trainer_kwargs)

这里主要就是grpo_pipeline_test中的reward_funcs，其他几个测试函数都没什么好说的，很好理解

GRPOTrainer中有required参数reward_funcs，这个在TRL文档中给出的例子是：

	def reward_funcs(completions, **kwargs):
		return [float(len(set(completion))) for completion in completions]

这个奖励的意思是会给长回答更高的得分。

注意这里的**kwargs是不可以省略的，因为GRPOTrainer调用reward_funcs会传入其他参数，比如prompts或者ground_truths，在TRL的GRPO文档中有很多例子。

2 一些其他的问题

这部分摘取一些和DeepSeek讨论的问题

2.1 DataProcessor与DataCollator

关于TRL的Trainer的一个问题，因为Trainer是可以传入data_collator参数的，但是一般来说我们都会在向Trainer传入数据集（如train_dataset）之前，先写好一个函数用于预处理数据集，比如train_dataset = train.dataset.map(prompt_formatter)这样，我的理解其实这里prompt_formatter何data_collator的作用是一样的（我觉得它们处理数据的逻辑也是一样，就是传入一个样本，然后做数据处理），因此如果在Trainer外面已经做了train_dataset.map(prompt_formatter)的操作，就不需要再传入data_collator了。反之也是一样，我可以传入data_collator，而无需进行train_dataset.map(prompt_formatter)的操作

以下回答由AI生成：

你的理解基本正确，但有一些细节需要注意。prompt_formatter（在dataset.map中使用）和data_collator确实都涉及数据处理，但它们的作用时机和目的有所不同。下面我来详细解释它们的区别以及何时使用它们：

2.1.1 `dataset.map(prompt_formatter)`:

作用时机: 在数据加载时，预处理阶段（即在训练开始之前）对数据集中的每个样本进行处理。
典型用途:
- 将原始文本转换为模型需要的输入格式（例如添加特殊token、构建prompt-completion结构）。
- 对数据进行过滤（通过remove_columns删除不需要的字段）。
- 执行一次性的、确定性的转换（例如tokenization，如果你不启用动态padding）。
特点:
- 处理结果是静态的（处理后的数据会被缓存，除非设置load_from_cache_file=False）。
- 适合所有样本共享的逻辑（例如统一的prompt模板）。

2.1.2 `data_collator`:

作用时机: 在训练过程中，动态批处理阶段（即在每个batch生成时）对样本进行实时处理。
典型用途:
- 动态padding（将同一batch内的样本padding到相同长度）。
- 随机数据增强（例如随机masking，适用于MLM任务）。
- 构造特殊输入（例如为RLHF构建奖励模型的输入格式）。
特点:
- 处理是动态的（每次batch采样时重新执行）。
- 适合需要随机性或依赖batch内其他样本的操作（例如padding长度取决于当前batch）。

2.1.3 何时选择哪种方式？

只用dataset.map:
- 如果你的数据处理是确定性的、不需要动态调整（例如固定的prompt模板），且不需要batch级别的操作（如padding），可以只使用dataset.map。
- 但注意：如果涉及变长序列，仍需data_collator处理padding（除非你已手动填充到固定长度）。
只用data_collator:
- 如果数据处理需要动态性（例如随机masking）或依赖batch上下文（如padding），可以只用data_collator。
- 但注意：这样可能导致训练时重复处理数据（例如每次epoch重复tokenization），影响效率。

联合使用:

常见做法是：
1. 用dataset.map处理静态逻辑（例如tokenization、添加固定prompt）。
2. 用data_collator处理动态逻辑（例如padding、随机增强）。

例如：

def prompt_formatter(example):
    example["input_ids"] = tokenizer(example["text"]).input_ids
    return example  # 不padding，保留原始长度

train_dataset = raw_dataset.map(prompt_formatter, batched=False)

data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=True)  # 动态padding和masking

如果prompt_formatter已经完成了所有必要处理（包括padding到固定长度），且不需要任何动态逻辑，确实可以跳过data_collator（或传入default_data_collator，它仅做简单的batch堆叠）。
但如果需要动态操作（如padding），即使有dataset.map，仍需data_collator。
二者并非互斥，而是互补的。dataset.map用于离线预处理，data_collator用于在线批处理。
选择取决于你的数据处理需求是否依赖动态上下文或随机性。

2.2 关于PartialState

accelerate库里有一个方法：PartialState().local_main_process_first()，我看到这个方法会用来加载数据集，这个看起来像是并行加载数据集的意思，你可以解释一下这个函数是用来做什么的吗？

注：这个方法本来是在PPO官方示例中使用的

PartialState().local_main_process_first() 是 Hugging Face accelerate 库中用于多进程并行处理的一个关键方法，尤其在分布式训练或推理时控制数据加载、文件处理等操作的执行顺序。它的核心作用是确保某些操作（如数据集加载或文件预处理）只在**主进程（main process）**上优先执行，避免多进程竞争或重复操作。

2.2.1 核心功能

local_main_process_first() 返回一个上下文管理器（context manager），其行为如下：
- 主进程（local main process）：会立即执行上下文内的代码块。
- 其他进程（非主进程）：会等待主进程完成后，再跳过或执行相同操作（取决于具体逻辑）。
目的：避免多进程同时操作共享资源（如文件读取、数据集缓存）导致的冲突或冗余计算。

2.2.2 典型使用场景

(1) 加载数据集时避免重复缓存

在分布式训练中，如果多个进程同时尝试缓存数据集（例如通过 datasets 库），可能会导致文件写入冲突。通过 local_main_process_first() 可以确保只有主进程生成缓存，其他进程直接复用：

from accelerate import PartialState

state = PartialState()  # 初始化分布式状态

# 只有主进程先缓存数据集，其他进程等待后直接加载缓存
with state.local_main_process_first():
    dataset = load_dataset("imdb")  # 假设这是耗时操作

(2) 文件预处理或下载

如果预处理（如分词、数据转换）只需要执行一次：

with state.local_main_process_first():
    tokenized_data = dataset.map(tokenize_function, batched=True)  # 主进程先处理
# 其他进程会自动等待主进程完成，然后直接使用处理后的数据

2.2.3 参数与底层机制

PartialState：是 accelerate 中管理分布式状态的类，自动检测当前进程的分布式环境（如多GPU、TPU等）。
local_main_process：指当前节点（机器）上的主进程（通常是全局主进程的一个子集，在多机训练时每台机器有自己的 local_main_process）。
同步机制：底层通过 torch.distributed 或类似库实现进程间同步，确保非主进程等待主进程完成。

2.2.4 与类似方法的区别

方法/属性	作用范围	用途
`local_main_process_first()`	当前节点的主进程优先	避免文件/缓存操作的竞争
`main_process_first()`	全局主进程优先（跨所有节点）	适用于全局只需执行一次的操作
`on_main_process()`	仅在主进程执行	完全跳过其他进程（如日志记录）

2.2.5 完整示例（分布式训练中的数据加载）

from accelerate import PartialState
from datasets import load_dataset

# 初始化分布式状态（自动检测环境）
state = PartialState()

# 只有主进程优先加载并缓存数据，其他进程等待
with state.local_main_process_first():
    dataset = load_dataset("glue", "mrpc", split="train")
    tokenized_data = dataset.map(lambda x: tokenizer(x["sentence"]), batched=True)

# 所有进程继续同步训练
for batch in tokenized_data:
    outputs = model(**batch)
    ...

2.2.6 注意事项

缓存路径一致性：确保所有进程能访问相同的缓存路径（如共享存储）。
性能影响：主进程的预处理时间会被计入总耗时，但避免了重复操作的开销。
错误处理：如果主进程预处理失败，其他进程会一直等待，需添加超时或错误处理逻辑。

2.2.7 总结

何时使用：在分布式环境中，任何需要单例执行的操作（如数据缓存、文件下载、预处理）都应使用 local_main_process_first()。
优势：减少资源竞争，避免冗余计算，确保分布式任务的高效协同。

如果需要进一步了解 accelerate 的分布式策略（如多机训练），可以继续探讨！

2.3 DPO和PPO的reference_model的区别

这个是阅读TRL文档发现的一个问题，DPOTrainer的ref_model参数是有默认值None的，但是PPOTrainer的ref_model参数没有默认值。这意味着必须给PPOTrainer传入ref_model参数，尽管一般都是跟目标模型一样。

你提出了一个很好的问题！DPO（Direct Preference Optimization）虽然确实不属于传统强化学习的范畴，但它仍然保留了reference model，这是出于特定的设计考虑。下面我详细解释原因：

2.3.1 DPO的核心思想与Reference Model的作用

DPO通过直接优化偏好数据来规避强化学习，但其目标函数（源自Bradley-Terry模型）隐式地包含了一个KL散度约束：
$\mathcal{L}_{\text{DPO}} = -\mathbb{E} \left[ \log \sigma\left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right]$
其中：

$\pi_\theta$ 是待训练的策略（当前模型）。
$\pi_{\text{ref}}$ 是reference model（通常初始化为预训练模型，例如SFT模型）。
$\beta$ 是控制偏离参考模型程度的超参数。

Reference Model的作用：

防止过度偏离初始策略：KL散度约束（通过reference model体现）避免模型为迎合偏好数据而退化（例如生成极端或无意义的输出）。
隐式正则化：类似于PPO中的KL惩罚，但DPO通过直接在损失函数中对比当前模型和reference模型的输出概率实现。

2.3.2 为什么DPO需要Reference Model，尽管它不是RL？

数学推导的必然性：DPO的公式是从逆向强化学习的目标推导而来的，其中reference model代表初始策略（即RL中的 $\pi_{\text{old}}$ ）。去掉reference model会导致目标函数失去约束，模型可能过拟合偏好数据。
实践中的稳定性：实验表明，去掉reference model后，模型容易过度优化偏好信号（例如始终输出短答案或重复模式）。

2.3.3 TRL的DPOTrainer中的`ref_model`

在HuggingFace TRL库中，DPOTrainer确实需要传入ref_model参数，原因如下：

计算概率比：DPO需要比较当前模型和reference模型对正/负样本的概率（即(\log \frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)}))。
冻结参考模型：ref_model在训练过程中是冻结的（不更新），仅作为基准。
内存优化：实际实现中，ref_model可能与当前模型共享部分结构（例如共享底层Transformer），但通过梯度截断避免更新。

2.3.4 DPO vs PPO的Reference Model

特性	PPO (RL)	DPO (Non-RL)
Reference Model	旧策略 $\pi_{\text{old}}$	预训练模型 $\pi_{\text{ref}}$
更新方式	定期同步（on-policy要求）	完全冻结
作用	重要性采样校正 + KL约束	隐式KL约束 + 防止过拟合

2.3.5 如果没有Reference Model会怎样？

假设令 $\pi_{\text{ref}}$ 为均匀分布，则DPO退化为直接最大化偏好对的似然，可能导致：

模型过度自信（overconfident）。
生成内容多样性下降（模式坍塌）。
对噪声偏好数据过拟合。

DPO虽然跳过了显式的强化学习框架，但通过保留reference model，继承了RL中“约束策略更新”的核心思想。这是其稳定性和性能的关键设计，也是它区别于纯监督学习（如直接微调）的重要特征。

PS：我感觉这个回答没有解释我的问题，答非所问了

你可能感兴趣的:(【慢摹】TRL训练器细节详解（SFT/PPO/DPO/GRPO）)

深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
旧系统UI焕新陷阱：保留业务习惯与引入新交互的平衡点把控贝格前端工场 ui 交互
摘要**想给老旧系统换上“高颜值新衣”，却遭遇员工集体吐槽“不会用”？满心期待新交互能提升效率，结果用户操作频频出错，业务进度反而被拖慢？旧系统UI焕新本是优化体验的好机会，可在保留多年养成的业务操作习惯，与引入更先进便捷的新交互方式之间，却横亘着巨大鸿沟。稍有不慎，就会陷入“改了不如不改”的尴尬境地。这场关于“守旧”与“创新”的博弈，究竟该如何破局？一、旧系统UI焕新：一场甜蜜又棘手的改造工程旧
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
uniapp微信小程序 - 详解微信小程序平台用户授权登录全流程，uniapp v3版本中小程序端开发下用户点击登录后获取手机号/昵称/性别/头像等信息完成登录（提供完整示例代码，一键复制开箱即用）十一猫咪爱养鱼前端组件与功能(开箱即用)uniapp常见问题解决 uniapp vue3 uniapp3小程序授权登录微信小程序登录获取用户信息教程获取用户昵称手机号头像信息登录 vue3版本小程序平台授权登录 uniap小程序端用户登录流程 uni完整的小程序平台登录源码
效果图在uniapp微信小程序端开发中，超详细实现用户授权登录完整功能源码，用户授权后获取手机号/昵称/头像/性别等，提供完整思路流程及逻辑讲解。uniappVue3和Vue2都能用，你也可以直接复制粘贴，然后改下参数放到你的项目中去就行。整体思路做功能之前，先来看一下整体流程是
Selenium 特殊控件操作与 ActionChains 实践详解小馋喵知识杂货铺 selenium 测试工具
1.下拉框单选操作(a)使用SeleniumSelect类（标准HTML标签）Selenium提供了内置的Select类用于操作标准下拉框，这种方式简单且直观。fromselenium.webdriver.support.uiimportSelect#定位下拉框dropdown=Select(driver.find_element("id","dropdown_id"))#通过以下三种方式选择单个
DPDK 技术详解：榨干网络性能的“瑞士军刀”
你是否曾感觉，即使拥有顶级的服务器和万兆网卡，你的网络应用也总是“喂不饱”硬件，性能总差那么一口气？传统的网络处理方式，就像在高速公路上设置了太多的收费站和检查点，限制了数据包的“奔跑”速度。今天，我们要深入探讨一个能够打破这些瓶颈，让你的网络应用快到飞起的“黑科技”——DPDK(DataPlaneDevelopmentKit，数据平面开发套件)。这不仅仅是一个工具包，更是一种全新的网络处理哲学。
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
Android 基础知识：Android 应用权限详解流水mpc android
这篇文章为大家系统的梳理一下Android权限相关的知识，在日常开发中，我们都用过权限，但是对于权限的一些细节我们可能掌握的还不够全面，这篇文章会全面的为大家介绍权限相关的知识。当然，本篇文章依然是参考了Google的官方文档：应用权限。本文目录一、认识Android权限（一）Android系统为什么需要权限？Android系统设置权限的目的是保护Android用户的隐私。对于用户的敏感数据And
面试必考题：Android Binder 机制详解大模型大数据攻城狮 android binder 面试 react native kotlin dalvik retrofit
目录第一章：Binder的基本概念什么是Binder？多角度解读Binder第二章：Binder的工作机制Binder的整体流程服务注册：从零到有的第一步服务查询：找到目标的“地图”服务调用：请求与响应的旅程Binder驱动的幕后功劳为什么Binder这么快？第三章：Binder在系统架构中的角色Activity：界面背后的通信枢纽Binder的角色实例分析Service：后台任务的跨进程支柱Bi
大年初二回娘家疑似桑梓
大年初二，回娘家。今天我回我妈的家，我妈回她妈的家，所以四舍五入我回我外婆家。还好外婆家并不远，走路过去的话，快的就二十分钟，慢的就半小时左右吧。正因为如此，其实也不限定于初二才回去，因为我妈现在几乎每天都去，以前是她一个人去或者拉着我爸去，如今把我儿子也带上了。这就是不远嫁的好处么？想回娘家的时候随时都可以回去，这么近，感觉若发生任何事，都有人撑腰。我老公呢，是西安人，所以我算是远嫁吧，但因为我
Flutter权限插件详解：permission_handler使用指南 AI移动开发前沿 AI移动端开发宝典 flutter ai
Flutter权限插件详解：permission_handler使用指南关键词：Flutter、权限插件、permission_handler、权限管理、移动开发摘要：本文围绕Flutter开发中常用的权限插件permission_handler展开详细介绍。首先阐述了在Flutter应用开发中处理权限的背景和重要性，接着深入解析permission_handler的核心概念、架构以及工作原理，通
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
点淘邀请码是什么怎么输入,点淘邀请码推广（注意细节问题邀请方法） e95cfad15310
性能优异：安装包体积小，高速下载，浏览更省流量，运行流畅快速点淘邀请码点淘邀请码LRM8XZH9或LRYTO3FS或LRYTO3FS，诚邀你的加入。借助番茄小说强大的精准客户群体，该应用采取了进一步细分市场的策略。现在，用户无论是阅读还是听小说，都可以赚取零花钱。点淘邀请码点淘邀请码：LRM8XZH9、LRYTO3FS或LRYTO3FS，它的主要特点是提供海量的小说和广播节目，同时也具备一些社交互
从明天开始，做一个快乐的人高雨丹
昨天因为生理问题，又去看了中医。中医一看到我，感觉我最近气色不够好。细问了自己的工作和生活状态，把了脉，询问了很多的细节。然后告诫：过了这个新环境的适应期，还是要保持比较从容的心态，比较快乐的心态。不然，对身体、生理会有比较大的影响。又告诫：现在人一过四十岁，必须把自己的身体放在第一位，然后是家庭，第三位是事业。一定要这样做。他还说，四十岁到五十岁这个阶段，是中年人的危险期。只有保持身心的平衡，才
C++中std::variant的使用详解和实战代码示例点云SLAM C++c++开发语言 variant C++泛型编程联合体 C++类型擦除机制 C++17
std::variant是C++17引入的一个类型安全的联合体（type-safeunion），它可以在多个类型之间存储一个值，并在编译时进行类型检查。它是现代C++类型擦除与泛型编程的核心工具之一，适用于构建可变类型结构、消息传递系统、状态机等。一、基本概念#includestd::variantv;类似于联合体union，但类型安全。std::variant只能存储其中一个类型的值。默认构造时
C语言结构体详解初学者，亦行者 C语言学习算法数据结构 c语言
目录C语言结构体1、声明结构体类型2、定义结构体变量3、成员的赋值与引用4、结构体数组5、结构体指针6、总结C语言结构体1、声明结构体类型前面学习了数组是一组相同类型数据的集合。但在实际应用中，我们往往会遇到不同类型的数据。而结构体就是用来存放不同数据的。#includeintmain(){structStu{intnum;//学号为整型charname[20];//姓名为字符串charsex;/
100天蜕变41 羽佳成长故事
今天12月11日，晴又瞎忙了一天，干哩点啥呢？01.参加社群运营学院的组织策划活动，第一在线上主持人，第一次当小助手，第一次坚定表达自己的意见。群里两派意见，一个是想非比赛模式，另一个比赛模式，意见僵持不下。02.走路一个多小时03.听罗胖60秒十几遍04.下午文章完成打卡05.写打卡文06.写总结启示不干不知道，做一次才能理解别人。老觉得主持人反应慢，实际上是看许多事，忙不过来。
登录功能详解开往1982 java 登录 spring boot
本项目由maven项目改造springboot项目导入依赖org.springframework.bootspring-boot-starter-parent2.7.6org.springframework.bootspring-boot-starter-web2.7.6org.springframework.bootspring-boot-starter-test2.7.5org.springf
从零到一：基于差分隐私决策树的客户购买预测系统实战开发笙囧同学决策树算法机器学习
作者简介：笙囧同学，中科院计算机大模型方向硕士，全栈开发爱好者联系方式：[email protected]各大平台账号：笙囧同学座右铭：偷懒是人生进步的阶梯文章导航快速导航前言-项目背景与价值项目概览-系统架构与功能技术深度解析-核心算法原理️系统实现详解-工程实践细节性能评估与分析-实验结果分析Web系统开发-前后端开发部署与运维-DevOps实践完整复现指南-手把手教程️实践案例与故障排除-问
Claude Code 超详细完整指南（2025最新版）笙囧同学 python
终端AI编程助手|高频使用点+生态工具+完整命令参考+最新MCP配置目录快速开始（5分钟上手）详细安装指南系统要求Windows安装（WSL方案）macOS安装Linux安装安装验证配置与认证首次认证环境变量配置代理配置⚡基础命令详解启动命令会话管理文件操作Think模式完全指南MCP服务器配置详解MCP基础概念添加MCP服务器10个必备MCP服务器MCP故障排除记忆系统详解高级使用技巧成本控制策
CMS垃圾回收器+G1垃圾回收器+ZGC垃圾回收器详解及对比 weixin_43751710 jvm java 算法
一、CMS收集器CMS(ConcurrentMarkSweep)收集器是一种以获取最短回收停顿时间为目标的收集器，是一款针对老年代的垃圾回收器，一般和Parallel回收器（一款新生代回收器，是使用复制算法的收集器，又是并行的多线程收集器，收集时会Stoptheworld）配合使用。1.工作过程从名字（包含“MarkSweep”）上就可以看出CMS收集器是基于标记-清除算法实现的，它的运作整个过程
在Ubuntu24.04搭建VLLM， SGLang 和 LangChain环境小熊冲！冲！冲！ AI ubuntu langchain ai 毕业设计
在Ubuntu24.04搭建VLLM，SGLang和LangChain环境[!NOTE]概述整片文章是笔者的回忆(白天忙碌了一天，晚上进行的总结)，所以有些地方的描述可能有误差，本文更多的是大体方向问题，细节步骤不是本文的重点，见谅!!!如何安装Ubuntu24.04制作启动U盘，作者使用的是rufus.exe工具下载Ubuntu24.04的ISO镜像使用rufus.exe工具刷入Ubuntu22
彻底搞懂Cache-Control qu木木网络 http 缓存
文章目录一、是什么？二、核心作用三、指令详解（常用）四、常见场景配置示例五、重要注意事项一、是什么？Cache-Control是HTTP头部中最关键、最灵活的控制缓存的字段，用于定义在客户端（浏览器）和代理服务器（如CDN）上的缓存策略。它取代了HTTP/1.0时代较为简单的Expires和Pragma头部，提供了更精细的控制。二、核心作用是否缓存：明确支出响应是否可以缓存，以及可以被谁缓存（浏览
001 Configuration结构体构造盖世灬英雄z DramSys c++人工智能
目录DramSys代码分析1Configuration结构体构造1.1`from_path`函数详解1.2构造过程总结这种设计的好处2Simulator例化过程2.1instantiateInitiatorDramSys代码分析1Configuration结构体构造好的，我们来详细解释一下DRAMSysConfiguration.cpp文件中from_path函数的配置构造过程。这个文件是DRAM
SQL笔记纯干货 AI入门修炼 oracle 数据库 sql
软件：DataGrip2023.2.3，phpstudy_pro,MySQL8.0.12目录1.DDL语句（数据定义语句）1.1数据库操作语言1.2数据表操作语言2.DML语句（数据操作语言）2.1增删改2.2题2.3备份表3.DQL语句（数据查询语言）3.1查询操作3.2题一3.3题二4.多表详解4.1一对多4.2多对多5.多表查询6.窗口函数7.拓展:upsert8.sql注入攻击演示9.拆表
一分钟了解什么是SCI影响因子？学术投稿人
影响因子详解期刊的影响因子（ImpactFactor），指的是该刊前二年发表的文献在当前年的平均被引用次数。刊物的影响因子越高，也即其刊载的文献被引用率越高，一方面说明这些文献报道的研究成果影响力大，另一方面也反映该刊物的学术水平高。由美国科学情报研究所（ISI，InstituteforScientificInformation）创始人尤金.加菲得（Dr.E.Garfield）在1960年代创立，
Java 代理机制详解：从静态代理到动态代理，彻底掌握代理模式的原理与实战大葱白菜 java合集 java 开发语言后端个人开发学习代理模式
作为一名Java开发工程师，你一定在使用Spring、MyBatis、RPC框架等技术时接触过“代理”（Proxy）这个概念。无论是Spring的AOP（面向切面编程）、事务管理，还是远程调用、日志记录、权限控制等场景，代理机制都扮演着至关重要的角色。本文将带你全面掌握：什么是代理？静态代理与动态代理的区别JDK动态代理与CGLIB动态代理的实现原理代理模式的典型应用场景代理在主流框架中的使用（如
【Druid】学习笔记 fixAllenSun 学习笔记 oracle
【Druid】学习笔记【一】简介【1】简介【2】数据库连接池（1）能解决的问题（2）使用数据库连接池的好处【3】监控（1）监控信息采集的StatFilter（2）监控不影响性能（3）SQL参数化合并监控（4）执行次数、返回行数、更新行数和并发监控（5）慢查监控（6）Exception监控（7）区间分布（8）内置监控DEMO【4】Druid基本配置参数介绍【5】Druid相比于其他数据库连接池的优点
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s