MiniMind:完全从 0 训练自己的大模型

MiniMind:完全从 0 训练自己的大模型_第1张图片
是 B 站 UP 主近在远方的远开源的一个微型语言模型,改进自 DeepSeek-V2、Llama3 结构,项目包含整个数据处理、pretrain、sft、dpo 的全部阶段,包含混合专家(MoE)模型。

其目标是把上手 LLM 的门槛无限降低, 直接从 0 开始训练一个极其轻量的语言模型,最低仅需 2G 显卡即可推理训练!

你可能感兴趣的:(三花AI,人工智能,LLM大模型)