03 推理与部署

推理与部署

推理加速、量化与服务编排，以及多模态链路里常见的前后处理与稳定性手段。

效率与显存

KV Cache：长上下文生成时缓存历史键值，避免重复计算已生成前缀。
量化与稀疏：INT8/INT4、GPTQ、AWQ 等降低权重与激活精度以换吞吐；需注意多模态分支的量化敏感度。
投机解码：小模型草拟、大模型校验，降低单步延迟（工程复杂度较高）。

服务化与多模态链路

批处理与流式：对话场景常用流式输出；嵌入与分类可批处理提高 GPU 利用率。
前后处理：图像 Resize、音频分帧、PDF 解析等往往在模型外由独立服务完成，接口需约定超时与最大尺寸。
观测与降级：监控 P99 时延与错误率；高峰期可对视频抽帧、降分辨率以保证可用性。