vLLM 与 Ollama 部署与应用

目录

一、vLLM 与 FastChat 的 Docker 部署指南

1. 环境准备

2. 安装 Docker 和 NVIDIA Container Toolkit

3. 拉取并运行 vLLM Docker 镜像

️ 二、Ollama 的本地多模型部署方案

1. 安装 Ollama



一、vLLM 与 FastChat 的 Docker 部署指南

vLLM 与 FastChat 的结合可以实现高性能的大语言模型(LLM)服务。以下是详细的 Docker 部署步骤

1. 环境准备

  • 操作系统Ubuntu 20.04 或以上版

  • 硬件要求NVIDIA GPU(如 A100

  • 软件依赖: -Docke -NVIDIA Container Toolki

2. 安装 Docker 和 NVIDIA Container Toolkit

  1. 安装 Docker

    sudo apt-get update
    sudo apt-get install \
        ca-certificates \
        curl \
        gnupg
    sudo install -m 0755 -d /etc/apt/keyrings
    curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg
    echo \
      "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu \
      $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
      sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
    sudo apt-get update
    sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
    ```
    
    
  2. 安装 NVIDIA Container Toolkit

    curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
    curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
        sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
        sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
    sudo apt-get update
    sudo apt-get install -y nvidia-container-toolkit
    sudo nvidia-ctk runtime configure --runtime=docker
    sudo systemctl restart docker
    ```
    

3. 拉取并运行 vLLM Docker 镜像

  1. 克隆 vLLM 项目并构建 Docker 镜像

    git clone https://github.com/vllm-project/vllm.git
    cd vllm
    docker build -t vllm-openai .
    ```
    
    
  2. 运行 Docker 容器

    docker run --gpus all -d --name vllm-server -p 8000:8000 vllm-openai
    ```
    
    
  3. 验证服务是否启动

    curl http://localhost:8000/v1/completions \
        -H "Content-Type: application/json" \
        -d '{
            "model": "NousResearch/Meta-Llama-3-8B-Instruct",
            "prompt": "San Francisco is a",
            "max_tokens": 7,
            "temperature": 0
        }'
    ```
    

如果返回预期的文本输出,说明部署成功 citeturn0search1


️ 二、Ollama 的本地多模型部署方案

Ollama 支持在本地环境中轻松运行多个大语言模型,以下是在 macOS 上的部署步:

1. 安装 Ollama

brew install ollama
``


### 2. 拉取所需模型

```bash
ollama pull qwen:7b
ollama pull deepseek-r1:7b
``


### 3. 同时运行多个模型实例
由于 Ollama 默认情况下单实例无法同时运行多个模型,我们可以通过为每个模型实例分配不同的端口来实现并行部:

```bash
# 运行第一个模型实例
export OLLAMA_HOST=127.0.0.1:11434
ollama serve &
ollama run qwen:7b

# 运行第二个模型实例
export OLLAMA_HOST=127.0.0.1:11435
ollama serve &
ollama run deepseek-r1:7b
``

这样,就可以在本地同时运行多个模型实例,分别监听不同的端口,方便进行多模型的测试与应。 citeturn0search7

---

##  三、企业级聊天系统架构设

在企业环境中,构建一个高效、可扩展的聊天系统需要综合考虑性能、成本和维护等因素。以下是基于 vLLM 和 Ollama 的混合部署架构议:

### 1. 架构概览

- **核心服务层*:使用 vLLM 部署在高性能服务器上,处理主要的推理请求,支持高并发和低延迟求。
- **边缘服务层*:在员工的本地设备(如笔记本电脑)上部署 Ollama,处理低敏感度、低并发的任务,减少对中心服务器的赖。
- **API 网关*:统一管理内部和外部的 API 请求,进行流量控制和安全证。
- **负载均衡*:在核心服务层前部署负载均衡器,分发请求,确保服务的高可性。

### 2. 数据流示意

1. **用户请求*:用户通过客户端(如网页、移动应用)发送聊天求。
2. **API 网关*:接收请求,进行认证和由。 

你可能感兴趣的:(#,神经网络,#,人工智能,开源,人工智能,语言模型)