【深度学习】大模型GLM-4-9B Chat ,微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署

文章目录

  • 获取TensorRT-LLM代码:
  • 构建docker镜像并安装TensorRT-LLM:
  • 运行docker镜像:
  • 安装依赖
  • 魔改下部分package代码:
  • 量化:
  • 构建图:
      • 全局参数
      • 插件配置
      • 常用配置参数
  • 测试推理是否可以
    • 代码推理
    • CLI推理
  • 性能测试
  • 小结
  • 验证是否严重退化
  • 使用NVIDIA Triton部署在线推理服务器
    • 代码弄下来
    • 编译镜像
    • 启动容器
    • 安装依赖
    • 量化
    • 构建trt engines图
    • Triton 模板
      • 说明
      • 实操
    • 发起Triton服务
    • 请求服务试试
      • 示例说明
    • 模型分析器
    • 关闭Triton服务
    • metric
  • 重看Triton服务

官方文档:
https://nvidia.github.io/TensorRT-LLM/quick-start-guide.html#launch-the-docker

参考资料源:
https://swanhub.co/ZhipuAI/ChatGLM3/blob/main/tensorrt_llm_demo/README.md

https://github.com/THUDM/GLM-4/issues/132

TensorRT-LLM官方目前说在v0.12.0版本才会支持GLM-4-9B Chat ,下面以v0.10.0的魔改来做GLM-4-9B Chat的量化部署。

本文目标就是加速GLM-4-9B Chat,看看能多快。A100卡。

获取TensorRT-LLM代码:

你可能感兴趣的:(深度学习机器学习,深度学习,人工智能)