ModaHub魔搭社区:ChatGLM-RLHF:无需微调 教程

目录

使用方法

效果展示


对ChatGLM直接使用RLHF进行调整参数,无需传统的finetune|Modify ChatGLM params with only RLHF。

ModaHub魔搭社区:ChatGLM-RLHF:无需微调 教程_第1张图片
大部分的RLHF代码都是在分布式框架,不适合学习和使用,本代码的RLHF代码不需要Megatron或者deepspeed框架, 只需要传统的炼丹torch和显卡就好了,RLHF的Critic用的ChatGLM的缩小版本,而Reward咱们直接使用一个和目标输出比较的相似度模型即可。 这样只需要学习核心的PPO算法即可,其他的都是已经了解的模型和结构。非常有利于NLPer进军RLHF。
功能:

ModaHub魔搭社区:ChatGLM-RLHF:无需微调 教程_第2张图片
●RLHF数据格式的定义和使用√
●只用RLHF就对ChatGLM进行了微调√
●让ChatGLM认主√
○可以自定义
■主人的姓名
■Robot的昵称
●实现更精细

你可能感兴趣的:(《实战AI模型》,魔搭GPT,AI模型,魔搭社区,ModaHub,ChatGLM)