LLaMA-Factory环境安装-重点总结

问题:在使用官网介绍的博客,进行安装,比较顺利。只不过,在需要推理加速时,UI界面上,给出的选项所支持的FlashAttention-2和Unsloth,不好实现。在进行一系列的调整,总结如下:

想要同时实现FlashAttention-2和Unsloth推理加速的环境安装方式:

以Ubuntu22.04 RTX4090 24GB为例:

1. 系统配置:CUDA版本选择12.2.x,因为高版本的flash-attn库不提供12.1版本的安装包:

## cuda 
export PATH=/usr/local/cuda-12.2/bin:$PATH
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-12.2/lib64

2. 虚拟环境创建:python版本选择3.10.x,使用官方推荐的安装方式:

conda create -n llama_factory python=3.10 -y

3. 首先安装LLaMA-Factory官方提供的环境安装内容:

pip install -e .[torch,metrics,bitsandbytes]

备注:torch版本为2.3.x,后续根据变化调整为对应版本

4. 然后安装flash-attn库,版本号含有cu122torch2.3cxx11abiFALSE:

pip in

你可能感兴趣的:(llama,人工智能,深度学习)