02 训练与微调

训练与微调

从预训练到偏好对齐，以及多模态场景下常见的训练策略与数据取舍。

预训练与后训练

大规模预训练：在海量文本（及多模态对）上学习通用表示与下一 token 预测或掩码目标。
指令微调（SFT）：用高质量「指令—回答」数据，让模型遵循任务格式与用户意图。
偏好对齐：RLHF、DPO、ORPO 等方法用人类或模型偏好信号减小「会答但不符合期望」的落差。

多模态特有的训练要点

冻结与解冻：常先冻结语言主干，只训 connector/视觉塔，再逐步放开以降低训练不稳定。
数据配比：图像—文本对与纯文本的比例影响通用语言能力与会话表现，需取舍。
分辨率与增广：更高分辨率提升细粒度认知，但显存与算力陡增；动态分辨率、切图是常见工程手段。