LLaMA-Factory快速入门

文章目录

    • 1. 背景
    • 2. 环境准备
      • 2.1 硬件要求
      • 2.2 CUDA和Pytorch环境
      • 2.3 模型下载
      • 2.4 模型推理
    • 3. 自定义数据集构建
    • 4. 基于LoRA的sft指令微调
      • 4.1 Lora 微调训练
      • 4.2 动态合并LoRA的推理
      • 4.3 训练效果评估
      • 4.4 LoRA模型合并导出
    • 5. webui board的使用
      • 5.1 使用介绍
      • 5.2 API Server的启动与调用
    • 6 进阶
      • 6.1 大模型主流评测 benchmark
      • 6.2 部署Ollama

1. 背景

开源大模型如LLaMA,Qwen,Baichuan等主要都是使用通用数据进行训练而来,其对于不同下游的使用场景和垂直领域的效果有待进一步提升,衍生出了微调训练相关的需求,包含预训练(pt),指令微调(sft),基于人工反馈的对齐(rlhf)等全链路。但大模型训练对于显存和算力的要求较高,同时也需要下游开发者对大模型本身的技术有一定了解,具有一定的门槛。

LLaMA-Factory项目的目标是整合主流的各种高效训练微调技术,适配市场主流开源模型,形成一个功能丰富,适配性好的训练框架。项目提供了多个高层次抽象的调用接口,包含多阶段训练推理测试benchmark评测API Server等,使开发者开箱即用。同时借鉴 Stable Diffsion WebUI相关,本项目提供了基于gradio的网页版工作台,方便初学者可以迅速上手操作,开发出自己的第一个模型。

本项目实现的目标:

  • 原始模型直接推理
  • 自定义数据集构建
  • 基于LoRA的sft指令微调
  • 动态合并LoRA的推理
  • 批量预测和训练效果评估
  • LoRA模型合并导出
  • 一站式webui board的使用
  • API Server的启动与调用
  • 大模型主流

你可能感兴趣的:(LLM,llama)