前文 使用vLLM + Qwen3.5部署内网AI笔记 介绍了联网的情况下安装推理环境并下载部署大模型的过程。由于是内网使用,一般部署完后会转移到与外界互联网隔绝的内网运行。为了不断升级AI的性能和能力,需要不定期更新模型和软件栈。
由于工作需要,近期使用vLLM + Qwen3.5完成了内网AI的部署,本文稍作笔记。本教程的运行硬件为NVIDIA A100/V100 GPU,操作系统为Ubuntu 22.04 LTS版本。