【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战

大模型部署背景

        大模型部署是指将训练好的模型在特定的软硬件环境中启动的过程,使模型能够接收输入并返回预测结果。大模型的内存开销巨大,7B模型仅权重需要14G内存。另外大模型是自回归生成,需要缓存Attention的 k/v。

【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战_第1张图片

【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战_第2张图片

LMDeploy 简介

【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战_第3张图片

推理性能

【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战_第4张图片

核心功能-量化

        量化可以大大降低显存,同时提升推理速度。LLM 是典型的访存密集型任务 

【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战_第5张图片

        Weight Only 量化:

【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战_第6张图片

核心功能——推理引擎 TurboMind

        主要包括四个部分:1. 持续批处理;2. 有状态的推理; 3. Blocked k/v cache; 4. 高性能 cuda kernel。

【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战_第7张图片

1. 持续批处理

【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战_第8张图片

2. 有状态的推理

【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战_第9张图片

3. Blocked K/V Cache

【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战_第10张图片

4. Cuda Kernel (算子融合可以有效减少访存次数)

【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战_第11张图片

核心功能-推理服务 api server

【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战_第12张图片

    

你可能感兴趣的:(langchain,python)