前文 使用vLLM + Qwen3.5部署内网AI笔记 介绍了联网的情况下安装推理环境并下载部署大模型的过程。定位是内网使用,一般部署完后会转移到与外界互联网隔绝的环境运行。为了不断升级AI的性能和能力,需要不定期更新模型和软件栈。
本文简要介绍内网升级vLLM及AI模型,本人使用相同的方法将内网的Qwen 3.5顺利升级到Qwen 3.6。
升级vLLM
vLLM更新较为频繁,基本上每个月有2到3次版本发布。为了使用新的特性,建议在硬件支持的情况下升级到最新版本。
由于使用uv安装vLLM,与其说升级不如说是初始化一个新的vLLM环境:
mkdir vllm-new && cd $_ uv venv --python 3.12 --seed source .venv/bin/activate uv pip install vllm --torch-backend=cu129
通过几个简单的命令,我们在新的目录下安装了新版vLLM。
下载新AI模型
接下来是下载新的AI模型,还是使用huggingface-cli来操作:
HF_ENDPOINT=https://hf-mirror.com hf download Qwen/Qwen3.6-27B-FP8 \ --local-dir Qwen3.6-27B-FP8
将新的vLLM环境和新模型文件打包到内网
有了新的vLLM环境和新的模型文件,接下来将所有文件打包送到内网机器上部署:
# 打包vLLM和模型文件(下面的语句假设模型文件在vllm-new文件夹中) tar -zcf vllm-new.tgz vllm-new # 拷贝到内网机器 # 解压文件 tar -zxf vllm-new.tgz
运行新的AI模型:
export OMP_NUM_THREADS=4 # 初次启动可设置大一些,后续可设置为1
export PORT=8001
export MODEL=Qwen3.5-27B-FP8
export VLLM_MARLIN_USE_ATOMIC_ADD=1
export CUDA_VISIBLE_DEVICES="0" # 只使用第一张显卡部署
export VLLM_SLEEP_WHEN_IDLE=1
vllm serve ./$MODEL \
--served-model-name "$MODEL" \
--mamba-cache-model align \
--gpu-memory-utilization 0.9 \
--max-model-len 262656 \
--max-num-seqs 32 \
--max-num-batched-tokens 32768 \
--enable-prefix-caching \
--enable-chunked-prefill \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--language-model-only \
--port $PORT \
--override-generation-config '{"temperature": 0.6, "top_p": 0.95, "top_k": 20, "min_p": 0.00, "max_tokens": 65536, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
--speculative-config '{"method": "mtp", "num_speculative_tokens": 2}' \
--dtype float16 \
--kv-cache-dtype fp8 \
--block-size 32 \
--load-format safetensors
至此,我们成功升级了vLLM并部署了新的Qwen 3.6模型。
注意事项
1. 通过压缩包方式拷贝vLLM环境需要保持路径一致,比如外网机器是 /root/vllm-new,那么解压后内网路径也应该是 /root/vllm-new,否则 vLLM 等通过 python 启动的脚本会提示“interpretor找不到”的错误。
如果你不能保证路径一致,可以修改脚本和配置的 python 路径:
cd .venv # 修改 pyvenv.cfg的home路径 sed i 's#old-path#new-path#' pyvenv.cfg cd .venv/bin sed i 's#old-path#new-path#' *
2. 升级过程避免大的升级,例如大幅升级vLLM版本,pytorch版本等,避免不兼容问题。


发表回复