fastllm移植到Windows加快LLM推理

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、fastllm是什么?
  • 二、环境准备
    • 1.操作系统
    • 2.Clion
    • 3.Visual Studio
    • 4.Python
    • 5.CUDA
  • 三、配置环境
  • 四、构建
    • 1.打开CUDA选项
    • 2.配置Compute
  • 五、编译
  • 总结


前言

最近在搞一个关于Chatglm-6B的项目,一个普通的回答要接近5秒钟,经过研究发现fastllm有明显的加速,加速后1.5秒,而且也没发现损失什么精度。


一、fastllm是什么?

fastllm是纯C++实现,无第三方依赖的高性能大模型推理库。6~7B级模型在安卓端上也可以流畅运行。今天不讨论安卓,讨论在CUDA上的部署。

fastllm源代码

二、环境准备

开始之前你需要准备一些必要的环境。对于相关开发人员来说,这些环境应该基本都是有的。

1.操作系统

Windows10Windows11是可以的,经过实际测试的。

2.Clion

Clion-2023.22023.3版本都可以。我是在Clion上编译的,也可以在VS上编译,但是我这里只提供Clion的方法,VS的方法请自行研究。

3.Visual Studio

20192022经过测试都是可以的,需要安装C++编译工具链。你也可以不完整安装VS,只安装工具链也行,这里就不说方法了,请自行研究。

4.Python

经过测试3.93.10的版本都是可以的,最好使用Anaconda环境,操作起来方便。

5.CUDA

CUDA环境是一定需要的,我这里使用的是11.8,其它的环境应该也是没问题的。Windows安装CUDA环境的教程网上一大堆,大家自行搜索下。

三、配置环境

Python环境比较容易,创建一个基于3.9的虚拟环境就行了。Windows上CUDA安装会自行配置环境变量。重点说下Clion,这里需要配置VS的编译环境,自带的MingW环境不行

点击File->Settings->Build->Toolchains,找不到的请把IDE改成英文,我是习惯了使用英文。

fastllm移植到Windows加快LLM推理_第1张图片

默认可能是没有VS环境的,需要手动添加的看下面的教程。前提是你已经安装好VS环境了。
fastllm移植到Windows加快LLM推理_第2张图片
fastllm移植到Windows加快LLM推理_第3张图片
主要是Toolset,这里只说2019和2022,略有差别,我也不可能在自己电脑上都装上。
fastllm移植到Windows加快LLM推理_第4张图片

VS2019:
选择安装路径下的Community

VS2022:
选择安装路径下的BuildTools

然后Archtecture和你的操作系统有关系,我是64位系统就选amd64,其它的不用选会自动检测的。

切记:选完后将VS编译工具链移动到最顶上。

fastllm移植到Windows加快LLM推理_第5张图片

四、构建

1.打开CUDA选项

fastllm移植到Windows加快LLM推理_第6张图片

2.配置Compute

fastllm移植到Windows加快LLM推理_第7张图片
不知道自己的显卡的Compute就去英伟达官网查询。

查询Compute

fastllm移植到Windows加快LLM推理_第8张图片

五、编译

这个就不用教了吧,等待结束就行了,代码里出现了很多的Warning,不用担心,不影响使用。


总结

1、原作者只给了Linux上的编译方法,Windows的还是费了些波折。

你可能感兴趣的:(C++,linux,windows,人工智能,AI,LLM,大语言模型)