目录
速查
| 功能分类 | 简写 | 完整名字 | 功能说明 | 专家建议 |
|---|---|---|---|---|
| 模型路径 | -m | –model | 主模型路径 | 必须指定 |
| 投机模型 | -md | –model-draft | 草稿模型路径 | 用于提升生成速度 |
| GPU卸载 | -ngl | –n-gpu-layers | 主模型卸载到 GPU 层数 | 4B 模型设为 999 全量卸载 |
| 草稿卸载 | -ngld | –n-gpu-layers-draft | 草稿模型卸载到 GPU 层数 | 必须与 -md 配合使用 |
| 上下文 | -c | –ctx-size | 最大上下文长度 (Tokens) | 8G 显存建议 8192-16384 |
| 闪速注意 | -fa | –flash-attn | 启用 Flash Attention | 必开,大幅节省显存并提速 |
| 批处理 | -b | –batch-size | 逻辑批处理大小 | 设为 1024 可提升预处理速度 |
| 物理批次 | -ub | –ubatch-size | 物理批处理大小 | 建议设为 512,平衡显存与速度 |
| 投机步长 | -dr | –draft | 投机采样预测数量 | 建议 8-16,过大会增加开销 |
| 并发数 | -np | –parallel | 同时处理的请求槽位 | 4060 跑 4B 建议设为 2-4 |
| 专家卸载 | -ncm | –n-cpu-moe | 将 MoE 专家层卸载到 CPU | 仅在显存不足以放下 9B+ 模型时使用 |
| KV量化 | -ctk | –cache-type-k | Key 缓存数据类型 (q8_0/q4_0) | 显存极度紧张时设为 q8_0 |
使用指令
使用 Draft Model
41.86t/s
|
|
将专家放到 CPU 中
|
|
使用mmjproj
|
|
关闭思考模式
|
|