效率与显存

  • KV Cache:长上下文生成时缓存历史键值,避免重复计算已生成前缀。
  • 量化与稀疏:INT8/INT4、GPTQ、AWQ 等降低权重与激活精度以换吞吐;需注意多模态分支的量化敏感度。
  • 投机解码:小模型草拟、大模型校验,降低单步延迟(工程复杂度较高)。

服务化与多模态链路

  • 批处理与流式:对话场景常用流式输出;嵌入与分类可批处理提高 GPU 利用率。
  • 前后处理:图像 Resize、音频分帧、PDF 解析等往往在模型外由独立服务完成,接口需约定超时与最大尺寸。
  • 观测与降级:监控 P99 时延与错误率;高峰期可对视频抽帧、降分辨率以保证可用性。