Qwen3.5中文网 | 开源大模型本地部署指南

Q: 运行Qwen3.5显存不足怎么办？

优先尝试Q4_K_M量化版Qwen3.5，可将显存需求降低约60%，或换更小参数规模的Qwen3.5版本。

Q: 如何提升Qwen3.5本地推理速度？

服务化部署推荐vLLM或SGLang框架，可开启连续批处理大幅提升Qwen3.5吞吐量。苹果芯片用MLX框架速度最优。

Qwen3.5 是什么？

Qwen3.5 是阿里云通义千问团队于2026年2月正式发布的新一代开源大语言模型系列，参数规模覆盖 0.8B 至 397B 共 8 个版本。Qwen3.5 采用门控 Delta 网络与稀疏专家混合（MoE）的革命性混合架构，在大幅降低推理成本的同时保持顶级性能。Qwen3.5 支持多达 201 种语言与方言，具备原生多模态视觉理解能力，并遵循 Apache 2.0 协议允许免费商用，是目前最值得本地私有化部署的开源大模型系列之一。

Qwen3.5 的三大技术突破

相比前代，Qwen3.5 在三个维度实现质的飞跃：早期融合多模态训练使其图文理解能力与专属视觉语言模型持平；百万智能体强化学习令其在复杂推理与代码生成上全面超越同代开源模型；近乎100% 的多模态训练效率，使该系列训练成本相比前代显著降低。

Qwen3.5 模型系列：完整版本一览

大型服务器版 Qwen3.5（适合企业私有化部署）

旗舰 MoE

Qwen3.5-397B-A17B

总参数397B，激活仅17B，性能超越同级闭源模型，需多卡A100/H100集群运行

MoE架构多卡集群企业级

中型 MoE

Qwen3.5-122B-A10B

122B参数，激活10B，双卡A100即可运行，性价比出色

MoE架构双卡A100

均衡旗舰

Qwen3.5-27B

密集27B全参数，单张80GB显卡可流畅运行，是 Qwen3.5 中企业私有化部署的均衡首选

密集模型单卡80G

轻量 MoE

Qwen3.5-35B-A3B

35B参数，激活仅3B，极低延迟，适合对响应速度有高要求的服务场景

MoE架构低延迟

个人本地部署首选：轻量版 Qwen3.5

Qwen3.5-9B（消费级 GPU 黄金之选）

需约 16GB 显存，Qwen3.5-9B 在 RTX 3090 / 4090 等消费级显卡上表现卓越，是推理性能与显存占用的最佳平衡点，也是综合能力最强的个人部署 Qwen3.5 版本，强烈推荐有16G显存的用户优先选择。

Qwen3.5-4B（8GB 显存用户的首选）

Qwen3.5-4B 量化版仅需约 4–5GB 显存，普通游戏本也能流畅运行本地 AI 推理，是 8GB 显存用户门槛最低、最值得部署的 Qwen3.5 入门版本。

Qwen3.5-2B 与 Qwen3.5-0.8B（无显卡也能跑）

这两款超轻量 Qwen3.5 版本专为边缘计算设计，无独立显卡、纯 CPU 环境同样可正常运行，适合树莓派、嵌入式开发板等低功耗本地 AI 场景。

Qwen3.5 本地部署详细教程（含完整命令）

📦 Ollama 模型文件体积参考（Q4 量化）： 0.8B ≈ 1.0 GB · 2B ≈ 2.7 GB · 4B ≈ 3.4 GB · 9B ≈ 6.6 GB · 27B ≈ 17 GB · 35B ≈ 24 GB · 122B ≈ 81 GB

1

Ollama — 一键下载运行，新手首选推荐新手

Ollama 封装了完整的 Qwen3.5 模型管理与推理引擎，安装后一条命令即可自动下载并运行模型，并在本地 11434 端口开启兼容 OpenAI 格式的 API 服务，完全开箱即用。

① 安装 Ollama

Windows

访问 ollama.com/download 下载 OllamaSetup.exe，双击安装，重启系统后生效。

macOS

brew install ollama

或从官网下载 Ollama.dmg 安装包。

Linux

curl -fsSL https://ollama.com/install.sh | sh

② 按显存选择 Qwen3.5 版本并运行

# 无独立显卡 / 纯 CPU — 0.8B（模型约 1.0 GB）
ollama run qwen3.5:0.8b

# 8 GB 显存（RTX 3060 等）— 4B（模型约 3.4 GB）
ollama run qwen3.5:4b

# 16 GB 显存（RTX 3090 等）— 9B（模型约 6.6 GB，推荐）
ollama run qwen3.5:9b

# 24 GB+ 显存（RTX 4090 等）— 27B（模型约 17 GB）
ollama run qwen3.5:27b

首次运行会自动下载模型文件，国内网速较慢时可参考官方文档配置 HTTP 代理，或用 ModelScope 镜像（见下方 llama.cpp 章节）。

③ 可选：Open-WebUI 可视化聊天界面

# 需要已安装 Docker Desktop
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --name open-webui ghcr.io/open-webui/open-webui:main
# 浏览器访问 http://localhost:3000 即可打开 Chat 界面

④ OpenAI 兼容 API 调用示例

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:9b",
    "messages": [{"role":"user","content":"你好，介绍一下 Qwen3.5"}],
    "temperature": 0.6,
    "top_k": 20,
    "top_p": 0.95,
    "max_tokens": 2048
  }'

2

llama.cpp — 全平台 GGUF，CPU/GPU 混合推理 CPU 首选

llama.cpp 是覆盖最广的本地 Qwen3.5 推理引擎，支持 Windows / macOS / Linux，纯 CPU 也能运行。可通过 -ngl 参数将任意层数卸载至 GPU，实现 CPU+GPU 混合推理，最大化利用现有硬件。

① 安装 llama.cpp

# macOS（最简方式）
brew install llama.cpp

# Linux / Windows — 源码编译，获得平台最优性能
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build
cmake --build build --config Release -j 8
# 编译完成后程序位于 ./build/bin/ ，可将其加入系统 PATH

② 下载 Qwen3.5 GGUF 量化模型

# 方式 A：境外网络 — Hugging Face（需安装 huggingface_hub）
pip install huggingface_hub
huggingface-cli download Qwen/Qwen3.5-4B-GGUF \
  qwen3.5-4b-q4_k_m.gguf --local-dir ./models

# 方式 B：国内推荐 — ModelScope 镜像（速度快）
pip install modelscope
modelscope download Qwen/Qwen3.5-4B-GGUF \
  qwen3.5-4b-q4_k_m.gguf --local_dir ./models

量化精度说明：Q4_K_M（均衡推荐）· Q6_K（高质量，显存+50%）· Q2_K（极限压缩，质量有损）。不同版本的 4B 文件约 2.5–3.4 GB，9B 约 5.5–6.6 GB。

③ 运行 Qwen3.5 模型

# 交互式对话 — 纯 CPU（-t 指定线程数，建议等于物理核心数）
llama-cli -m ./models/qwen3.5-4b-q4_k_m.gguf \
  --jinja --color -t 8 \
  --temp 0.6 --top-k 20 --top-p 0.95 \
  -c 40960 --no-context-shift

# GPU 全速模式（-ngl 99 = 全部层放显卡，-fa 开 FlashAttention）
llama-cli -m ./models/qwen3.5-4b-q4_k_m.gguf \
  --jinja --color -ngl 99 -fa \
  --temp 0.6 --top-k 20 --top-p 0.95 \
  -c 40960 --no-context-shift

# CPU+GPU 混合（显存不足时：-ngl 20 = 前 20 层放显卡）
llama-cli -m ./models/qwen3.5-4b-q4_k_m.gguf \
  --jinja --color -ngl 20 \
  --temp 0.6 --top-k 20 --top-p 0.95 -c 40960

④ 启动 HTTP 服务（兼容 OpenAI API）

llama-server -m ./models/qwen3.5-4b-q4_k_m.gguf \
  --jinja -ngl 99 -fa -c 40960 \
  --host 0.0.0.0 --port 8080
# Web 界面：http://localhost:8080
# API：http://localhost:8080/v1/chat/completions

3

vLLM — NVIDIA GPU 生产级高吞吐服务化生产部署

vLLM 通过 PagedAttention 显存管理与连续批处理，将 Qwen3.5 推理吞吐量相比原生框架提升数倍，是 NVIDIA GPU 服务器生产部署的首选方案。需 CUDA 11.8+ 环境。

① 安装 vLLM

pip install "vllm>=0.8.5"

② 按显存配置启动 Qwen3.5 推理服务

# 单卡 16 GB — 部署 Qwen3.5-9B（上下文 32K）
vllm serve Qwen/Qwen3.5-9B-Instruct \
  --port 8000 \
  --reasoning-parser qwen3 \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.9

# 双卡张量并行 — 部署 Qwen3.5-27B（两张 16 GB 或单张 24 GB+）
vllm serve Qwen/Qwen3.5-27B-Instruct \
  --port 8000 \
  --tensor-parallel-size 2 \
  --reasoning-parser qwen3 \
  --max-model-len 32768

# 多卡集群 — 部署旗舰 Qwen3.5-397B-A17B（需 8× A100）
vllm serve Qwen/Qwen3.5-397B-A17B-Instruct \
  --port 8000 \
  --tensor-parallel-size 8 \
  --enable-expert-parallel \
  --reasoning-parser qwen3

# 国内服务器：ModelScope 加速下载（推荐）
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-9B-Instruct \
  --port 8000 --reasoning-parser qwen3

③ 测试 API（OpenAI 兼容格式）

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3.5-9B-Instruct",
    "messages": [{"role":"user","content":"你好"}],
    "temperature": 0.6,
    "top_p": 0.95,
    "top_k": 20,
    "max_tokens": 2048
  }'

⚠️ OOM 显存不足：尝试 --max-model-len 8192 缩短最大上下文，或 --gpu-memory-utilization 0.8 降低显存预占，或改用更小的 Qwen3.5 版本（如从 9B 换 4B）。

4

MLX — Apple Silicon 统一内存，Mac 最优解 Mac 专属

苹果 M1 至 M4 芯片用户首选方案。MLX 框架完全针对 Apple Silicon 统一内存架构优化，CPU 与 GPU 共享同一显存池，本地运行 Qwen3.5 的速度与功耗均优于 llama.cpp。

① 安装 mlx-lm

pip install mlx-lm

② 按统一内存大小选择版本并运行

# 8 GB 统一内存（M1 基础款）— 推荐 4B
mlx_lm.chat --model mlx-community/Qwen3.5-4B-Instruct-4bit

# 16 GB 统一内存（M1 Pro / M2）— 推荐 9B
mlx_lm.chat --model mlx-community/Qwen3.5-9B-Instruct-4bit

# 32 GB 统一内存（M1 Max / M3 Pro）— 可跑 27B
mlx_lm.chat --model mlx-community/Qwen3.5-27B-Instruct-4bit

# 命令行单次生成（不进入对话模式）
mlx_lm.generate \
  --model mlx-community/Qwen3.5-4B-Instruct-4bit \
  --max-tokens 2048 \
  --prompt "介绍一下 Qwen3.5 的推理架构"

③ 启动 OpenAI 兼容 API 服务器

mlx_lm.server \
  --model mlx-community/Qwen3.5-4B-Instruct-4bit \
  --port 8000

# 调用测试
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"mlx-community/Qwen3.5-4B-Instruct-4bit",
       "messages":[{"role":"user","content":"你好"}],
       "temperature":0.6,"max_tokens":1024}'

💡 国内下载加速：执行前设置 HF_ENDPOINT=https://hf-mirror.com 可通过国内镜像站下载 MLX 格式模型，速度显著提升。

不同硬件配置推荐部署哪款 Qwen3.5

选择 Qwen3.5 版本时，显存是核心决定因素。以下对照表帮你快速找到最适合自己硬件的 Qwen3.5 推荐版本與部署方式。

硬件配置	推荐 Qwen3.5 版本	推荐部署工具	体验评级
仅 CPU（无显卡）	Qwen3.5-0.8B / 2B	llama.cpp GGUF	可用 ★★☆
8GB 显存（RTX 3060 等）	Qwen3.5-4B Q4	Ollama / llama.cpp	流畅 ★★★
16GB 显存（RTX 3090 等）	Qwen3.5-9B	Ollama / vLLM	优秀 ★★★★
24GB+ 显存（RTX 4090 等）	Qwen3.5-27B Q4	vLLM / SGLang	极佳 ★★★★★
Apple Silicon（M1–M4）	Qwen3.5-4B / 9B MLX	MLX / Ollama	流畅 ★★★★
多卡 A100（企业集群）	Qwen3.5-27B / 397B	vLLM / SGLang	旗舰 ★★★★★

💡 量化精度选择建议：Q4_K_M 格式在显存占用与模型质量之间取得最佳平衡，推荐作为本地运行 Qwen3.5 的默认量化方案。追求更高精度可选 Q6_K，极度压缩显存则选 Q2_K（质量有损）。

Qwen3.5 本地部署常见问题解答

运行 Qwen3.5 显存不足怎么办？

优先尝试量化版 Qwen3.5：Q4_K_M 格式可将显存需求降低约 60%。若仍不足，换用参数更小的版本（如从9B降到4B），或通过 llama.cpp 开启 CPU/GPU 混合推理模式。服务端部署时，vLLM 的 PagedAttention 机制也能有效降低峰值显存占用。

如何提升 Qwen3.5 本地推理速度？

服务化部署 Qwen3.5 推荐 vLLM 或 SGLang 框架，可开启连续批处理与 FlashAttention 加速，推理吞吐量相比原生 Transformers 提升数倍。Mac 用户使用 mlx-lm，已内置 Apple Silicon 推理优化，无需额外配置，实测速度普遍优于 llama.cpp。

Qwen3.5 可以微调吗？

完全支持！可使用 LLaMA-Factory、Swift 或 UnSloth 框架对 Qwen3.5 进行 SFT、DPO 或 GRPO 微调，三款框架均已原生适配 Qwen3.5 全系列模型，适合企业知识库定制与垂直领域微调场景。

Qwen3.5 从哪里下载？

Qwen3.5 全系列权重已在 Hugging Face Hub 与 ModelScope 同步开源，国内用户推荐 ModelScope 加速下载，或设置 VLLM_USE_MODELSCOPE=true 环境变量自动切换下载源。