跳到主要内容
版本:dev

vLLM

配置 DB-GPT 使用 vLLM 在 NVIDIA GPU 上进行高吞吐本地推理。

前置条件

  • 安装了 CUDA 12.1+ 的 NVIDIA GPU
  • 模型所需显存足够(7B 模型通常至少 8 GB+)
  • 已安装带 vllm 扩展的 DB-GPT

安装依赖

uv sync --all-packages \
--extra "base" \
--extra "hf" \
--extra "cuda121" \
--extra "vllm" \
--extra "rag" \
--extra "storage_chromadb" \
--extra "quant_bnb" \
--extra "dbgpts"

配置方式

编辑 configs/dbgpt-local-vllm.toml

[models]
[[models.llms]]
name = "DeepSeek-R1-Distill-Qwen-1.5B"
provider = "vllm"
# Download from HuggingFace automatically, or specify local path:
# path = "models/DeepSeek-R1-Distill-Qwen-1.5B"

[[models.embeddings]]
name = "BAAI/bge-large-zh-v1.5"
provider = "hf"
# path = "models/bge-large-zh-v1.5"
模型下载

如果没有指定 path,模型会自动从 HuggingFace Hub 下载。对于大模型,建议提前下载:

# Using huggingface-cli
huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --local-dir models/DeepSeek-R1-Distill-Qwen-1.5B

常见模型选择

模型显存需求说明
DeepSeek-R1-Distill-Qwen-1.5B~4 GB小模型,适合测试
GLM-4-9B-Chat~20 GB中英文能力都不错
Qwen2.5-7B-Instruct~16 GB平衡性好
Qwen2.5-Coder-7B-Instruct~16 GB偏代码场景

启动服务

uv run dbgpt start webserver --config configs/dbgpt-local-vllm.toml
指定 GPU

如果你想指定某张 GPU:

CUDA_VISIBLE_DEVICES=0 uv run dbgpt start webserver --config configs/dbgpt-local-vllm.toml

故障排查

问题解决方法
CUDA not found安装 CUDA 12.1+,并用 nvidia-smi 验证
GPU 显存不足使用更小模型,或启用量化(quant_bnb
模型下载失败提前下载模型,或配置 HuggingFace 镜像
首次请求较慢vLLM 首次运行会编译 kernel,后续请求会明显更快

下一步