返回

llama.cpp 速查

目录

速查

功能分类 简写 完整名字 功能说明 专家建议
模型路径 -m –model 主模型路径 必须指定
投机模型 -md –model-draft 草稿模型路径 用于提升生成速度
GPU卸载 -ngl –n-gpu-layers 主模型卸载到 GPU 层数 4B 模型设为 999 全量卸载
草稿卸载 -ngld –n-gpu-layers-draft 草稿模型卸载到 GPU 层数 必须与 -md 配合使用
上下文 -c –ctx-size 最大上下文长度 (Tokens) 8G 显存建议 8192-16384
闪速注意 -fa –flash-attn 启用 Flash Attention 必开,大幅节省显存并提速
批处理 -b –batch-size 逻辑批处理大小 设为 1024 可提升预处理速度
物理批次 -ub –ubatch-size 物理批处理大小 建议设为 512,平衡显存与速度
投机步长 -dr –draft 投机采样预测数量 建议 8-16,过大会增加开销
并发数 -np –parallel 同时处理的请求槽位 4060 跑 4B 建议设为 2-4
专家卸载 -ncm –n-cpu-moe 将 MoE 专家层卸载到 CPU 仅在显存不足以放下 9B+ 模型时使用
KV量化 -ctk –cache-type-k Key 缓存数据类型 (q8_0/q4_0) 显存极度紧张时设为 q8_0

使用指令

使用 Draft Model

41.86t/s

1
llama-server  -m .\Qwen3.5-4B-Q4_K_S.gguf  -md ..\Qwen3.5-0.8B-GGUF\Qwen3.5-0.8B-IQ4_NL.gguf  --n-gpu-layers 999  --n-gpu-layers-draft 999  --flash-attn on  --ctx-size 8192  --batch-size 1024  --ubatch-size 512  --draft 8  --host 0.0.0.0  --port 8080  --temp 0.7  --top-p 0.8  --min-p 0.05

将专家放到 CPU 中

1
llama-server  -m .\your-moe-9b-model.gguf  --n-gpu-layers 99  --n-cpu-moe 99  --ctx-size 8192  --flash-attn on

使用mmjproj

1
llama-server  -m .\Qwen3.5-9B-Q4_K_S.gguf  --mmproj .\mmproj-model-f16.gguf  -ngl 99  --flash-attn on  -c 8192

关闭思考模式

1
llama-server -m .\Qwen3.5-9B-Q3_K_M.gguf --mmproj .\mmproj-F32.gguf -ngl 99 --flash-attn on -c 8192 --chat-template-kwargs '{"enable_thinking": false}' --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0
Licensed under CC BY-NC-SA 4.0