预训练与后训练
- 大规模预训练:在海量文本(及多模态对)上学习通用表示与下一 token 预测或掩码目标。
- 指令微调(SFT):用高质量「指令—回答」数据,让模型遵循任务格式与用户意图。
- 偏好对齐:RLHF、DPO、ORPO 等方法用人类或模型偏好信号减小「会答但不符合期望」的落差。
多模态特有的训练要点
- 冻结与解冻:常先冻结语言主干,只训 connector/视觉塔,再逐步放开以降低训练不稳定。
- 数据配比:图像—文本对与纯文本的比例影响通用语言能力与会话表现,需取舍。
- 分辨率与增广:更高分辨率提升细粒度认知,但显存与算力陡增;动态分辨率、切图是常见工程手段。