多模态大模型在做什么
传统语言模型主要处理文本 token 序列;多模态大模型在同一语义空间中联合理解或生成多种信号(图像、音频、视频与文本),从而支持看图说话、听音摘要、视频问答等跨媒介任务。
常见模态与对齐
- 视觉—语言(VLM):视觉编码器产出向量,与文本 embedding 在共享空间对齐(对比学习、可学习查询、交叉注意力等)。
- 语音—文本:ASR 与 LLM 级联或端到端统一,完成口述转写与口语语义理解。
- 文档与版面:OCR + 布局编码保留阅读顺序与表格结构,再交给语言主干推理。
「对齐」的目标:让不同模态在语义上可比较、可组合,使用户能用自然语言统筹图像、声音与文字。
架构上常见组件
- 模态编码器:如 ViT、音频编码器等,经线性层/projector 对齐到 Transformer 块维度。
- 统一序列:图像 patch、音频帧特征等拍成类 token 序列,配合特殊符接入自注意力。
- 生成侧:文本自回归最常见;图像/声音可接扩散、声码器等专用解码器。