MiniMax-M1 是由中国 AI 公司 MiniMax 于 2025 年 6 月 17 日推出的 全球首个开源大规模混合架构推理模型,凭借其百万级上下文支持、超高效计算性能和突破性成本表现,成为大模型领域的新标杆。
MiniMax-M1 型号可以在配备 8 个 H800 或 8 个 H20 GPU 的单个服务器上高效运行。在硬件配置方面,配备 8 个 H800 GPU 的服务器可以处理多达 200 万个令牌的上下文输入,而配备 8 个 H20 GPU 的服务器可以支持高达 500 万个令牌的超长上下文处理能力。
从 HuggingFace 存储库下载模型:MiniMax-M1-40k、MiniMax-M1-80k
下载命令:
pip install -U huggingface-hub
huggingface-cli download MiniMaxAI/MiniMax-M1-40k
# huggingface-cli download MiniMaxAI/MiniMax-M1-80k
# If you encounter network issues, you can set a proxy
export HF_ENDPOINT=https://hf-mirror.com
或使用 git 下载:
git lfs install
git clone https://huggingface.co/MiniMaxAI/MiniMax-M1-40k
git clone https://huggingface.co/MiniMaxAI/MiniMax-M1-80k
⚠️ 重要提示:请确保您的系统已安装 Git LFS,这是完全下载模型权重文件所必需的。
为了保证部署环境的一致性和稳定性,我们建议使用 Docker 进行部署。
版本要求:
config.json
config['architectures'] = ["MiniMaxM1ForCausalLM"]
config['architectures'] = ["MiniMaxText01ForCausalLM"]
docker pull vllm/vllm-openai:v0.8.3
# Set environment variables
IMAGE=vllm/vllm-openai:v0.8.3
MODEL_DIR=
CODE_DIR=
NAME=MiniMaxImage
# Docker run configuration
DOCKER_RUN_CMD="--network=host --privileged --ipc=host --ulimit memlock=-1 --shm-size=2gb --rm --gpus all --ulimit stack=67108864"
# Start the container
sudo docker run -it \
-v $MODEL_DIR:$MODEL_DIR \
-v $CODE_DIR:$CODE_DIR \
--name $NAME \
$DOCKER_RUN_CMD \
$IMAGE /bin/bash
如果您的环境满足以下要求:
您可以直接安装 vLLM
安装命令:
pip install vllm
如果您使用的是其他环境配置,请参阅 vLLM 安装指南
export SAFETENSORS_FAST_GPU=1
export VLLM_USE_V1=0
python3 -m vllm.entrypoints.openai.api_server \
--model \
--tensor-parallel-size 8 \
--trust-remote-code \
--quantization experts_int8 \
--max_model_len 4096 \
--dtype bfloat16
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "MiniMaxAI/MiniMax-M1",
"messages": [
{"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
{"role": "user", "content": [{"type": "text", "text": "Who won the world series in 2020?"}]}
]
}'
如果遇到以下错误:
import vllm._C # noqa
ModuleNotFoundError: No module named 'vllm._C'
或
MiniMax-M1 model is not currently supported
可以提供两种解决方案:
cd
git clone https://github.com/vllm-project/vllm.git
cd vllm
cp /usr/local/lib/python3.12/dist-packages/vllm/*.so vllm
cp -r /usr/local/lib/python3.12/dist-packages/vllm/vllm_flash_attn/* vllm/vllm_flash_attn
cd
git clone https://github.com/vllm-project/vllm.git
cd vllm/
pip install -e .