模型分发策略、显存分级预算与全平台部署规程
将模型放入 Content/ 并随 Pak 打包。
mmap 物理映射效率。将模型放在 Saved/Models/ 或自定义外部路径。
为了在不同机器上稳定运行,业务层应预设显存预算水位:
| 硬件档位 | 推荐模型 | 显存锁定预算 |
|---|---|---|
| 基础档 (RTX 3060) | Gemma-2B (4-bit) | 1.8 GB |
| 标准档 (RTX 4060) | Gemma-4-E2B (4-bit) | 2.5 GB |
| 极致档 (RTX 4080+) | Llama-3-8B (8-bit) | 6.5 GB |