大模型(LLM)推理框架汇总

MLC LLM


大模型(LLM)推理框架汇总_第1张图片

submodules in MLC LLM

大模型(LLM)好性能通用部署方案,陈天奇(tvm发起者)团队开发.

项目链接

docs: https://llm.mlc.ai/docs/

github: https://github.com/mlc-ai/mlc-llm

支持的平台和硬件

大模型(LLM)推理框架汇总_第2张图片

platforms & hardware

支持的模型

|
Architecture

|

Prebuilt Model Variants

|
| — | — |
|

Llama

|

Llama-2, Code Llama, Vicuna, WizardLM, WizardMath, OpenOrca Platypus2, FlagAlpha Llama-2 Chinese, georgesung Llama-2 Uncensored

|
|

GPT-NeoX

|

RedPajama

|
|

GPT-J

|
|
|

RWKV

|

RWKV-raven

|
|

MiniGPT

|
|
|

GPTBigCode

|

WizardCoder

|
|

ChatGLM

|
|
|

ChatGLM

|
|

接口API 支持

Javascript API, Rest API, C++ API, Python API, Swift API for iOS app, Java API & Android App

量化(Quantization) 方法支持

4-bit, LUT-GEMM, GPTQ

ref: https://llm.mlc.ai/docs/compilation/configure_quantization.html

其他

最大的特点是可以快速部署大模型到iOS 和 Android 设备上, 浏览器上运行文生图模型(sd1.5/2.1)和大模型, 推理框架基于tvm-unity.

vLLM


快速简单易用的大模型推理框架和服务,来自加州大学伯克利分校

vLLm 运行大模型非常快主要使用以下方法实现的:

  1. 先进的服务吞吐量

  2. 通过PageAttention 对attention key & value 内存进行有效的管理

  3. 对于输入请求的连续批处理

  4. 高度优化的CUDA kernels

项目链接

docs: Welcome to vLLM!

github: https://github.com/vllm-project/vllm

支持的平台和硬件

NVIDIA CUDA, AMD ROCm

支持的模型

vLLM seamlessly supports many Hugging Face models, including the following architectures:

  • Aquila & Aquila2 (BAAI/AquilaChat2-7B, BAAI/AquilaChat2-34B, BAAI/Aquila-7B, BAAI/AquilaChat-7B, etc.)

  • Baichuan & Baichuan2 (baichuan-inc/Baichuan2-13B-Chat, baichuan-inc/Baichuan-7B, etc.)

  • BLOOM (bigscience/bloom, bigscience/bloomz, etc.)

  • ChatGLM (THUDM/chatglm2-6b, THUDM/chatglm3-6b, etc.)

  • Falcon (tiiuae/falcon-7b, tiiuae/falcon-40b, tiiuae/falcon-rw-7b, etc.)

  • GPT-2 (gpt2, gpt2-xl, etc.)

  • GPT BigCode (bigcode/starcoder, bigcode/gpt_bigcode-santacoder, etc.)

  • GPT-J (EleutherAI/gpt-j-6b, nomic-ai/gpt4all-j, etc.)

  • GPT-NeoX (EleutherAI/gpt-neox-20b, databricks/dolly-v2-12b, stabilityai/stablelm-tuned-alpha-7b, etc.)

  • InternLM (internlm/internlm-7b, internlm/internlm-chat-7b, etc.)

  • LLaMA & LLaMA-2 (meta-llama/Llama-2-70b-hf, lmsys/vicuna-13b-v1.3, young-geng/koala, openlm-research/open_llama_13b, etc.)

你可能感兴趣的:(langchain,人工智能,AI-native,百度,产品经理,神经网络,自然语言处理)