llama.cpp 速查

速查

功能分类	简写	完整名字	功能说明	专家建议
模型路径	-m	–model	主模型路径	必须指定
投机模型	-md	–model-draft	草稿模型路径	用于提升生成速度
GPU卸载	-ngl	–n-gpu-layers	主模型卸载到 GPU 层数	4B 模型设为 999 全量卸载
草稿卸载	-ngld	–n-gpu-layers-draft	草稿模型卸载到 GPU 层数	必须与 -md 配合使用
上下文	-c	–ctx-size	最大上下文长度 (Tokens)	8G 显存建议 8192-16384
闪速注意	-fa	–flash-attn	启用 Flash Attention	必开，大幅节省显存并提速
批处理	-b	–batch-size	逻辑批处理大小	设为 1024 可提升预处理速度
物理批次	-ub	–ubatch-size	物理批处理大小	建议设为 512，平衡显存与速度
投机步长	-dr	–draft	投机采样预测数量	建议 8-16，过大会增加开销
并发数	-np	–parallel	同时处理的请求槽位	4060 跑 4B 建议设为 2-4
专家卸载	-ncm	–n-cpu-moe	将 MoE 专家层卸载到 CPU	仅在显存不足以放下 9B+ 模型时使用
KV量化	-ctk	–cache-type-k	Key 缓存数据类型 (q8_0/q4_0)	显存极度紧张时设为 q8_0

使用指令

使用 Draft Model

41.86t/s

1

llama-server  -m .\Qwen3.5-4B-Q4_K_S.gguf  -md ..\Qwen3.5-0.8B-GGUF\Qwen3.5-0.8B-IQ4_NL.gguf  --n-gpu-layers 999  --n-gpu-layers-draft 999  --flash-attn on  --ctx-size 8192  --batch-size 1024  --ubatch-size 512  --draft 8  --host 0.0.0.0  --port 8080  --temp 0.7  --top-p 0.8  --min-p 0.05

将专家放到 CPU 中

1

llama-server  -m .\your-moe-9b-model.gguf  --n-gpu-layers 99  --n-cpu-moe 99  --ctx-size 8192  --flash-attn on

使用mmjproj

1

llama-server  -m .\Qwen3.5-9B-Q4_K_S.gguf  --mmproj .\mmproj-model-f16.gguf  -ngl 99  --flash-attn on  -c 8192

关闭思考模式

1

llama-server -m .\Qwen3.5-9B-Q3_K_M.gguf --mmproj .\mmproj-F32.gguf -ngl 99 --flash-attn on -c 8192 --chat-template-kwargs '{"enable_thinking": false}' --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0

目录

速查

使用指令

使用 Draft Model

将专家放到 CPU 中

使用mmjproj

关闭思考模式