大模型量化AutoGPTQ代码配置

针对大语言模型推理性能优化的研究取得了巨大的进展,如今我们不仅能够在高端显卡上完成大语言模型的推理,甚至在 CPU 和边缘设备上都可以轻松运行大语言模型。一系列的技术进步。在此记录我配置大模型量化的代码AutoGPTQ的过程中出现的问题和解决方案。

代码链接:https://github.com/AutoGPTQ/AutoGPTQ

其实最核心的在于安装auto-gptq这个包,但是直接

pip install auto-gptq
安装的话得到的很可能是不符合你的环境的包。而且由于国内很难链接上hugging face,所以在官方readme给出的安装方法对我来说并不适用。

打开AutoGPTQ的发布链接:https://github.com/AutoGPTQ/AutoGPTQ/releases/tag/v0.2.2
大模型量化AutoGPTQ代码配置_第1张图片

选择合适自己的python、系统、和cuda版本的wheel文件,在这里我选择的第三个,因为我的是cu117。大家也可以根据图示命令查看自己虚拟环境中的cuda版本,选择对应的文件。

大模型量化AutoGPTQ代码配置_第2张图片

选择好文件后直接运行:

pip install https://github.com/PanQiWei/AutoGPTQ/releases/download/v0.2.2/auto_gptq-0.2.2+cu117-cp38-cp38-linux_x86_64.whl

等待安装完成即可。
最后验证是否安装成功:
大模型量化AutoGPTQ代码配置_第3张图片

参考:https://github.com/AutoGPTQ/AutoGPTQ/issues/160

你可能感兴趣的:(python,linux,ubuntu,pycharm)