01 多模态基础

多模态基础

从「多种信号如何进同一套语义空间」出发，理解对齐思路与常见模型结构。

多模态大模型在做什么

传统语言模型主要处理文本 token 序列；多模态大模型在同一语义空间中联合理解或生成多种信号（图像、音频、视频与文本），从而支持看图说话、听音摘要、视频问答等跨媒介任务。

常见模态与对齐

视觉—语言（VLM）：视觉编码器产出向量，与文本 embedding 在共享空间对齐（对比学习、可学习查询、交叉注意力等）。
语音—文本：ASR 与 LLM 级联或端到端统一，完成口述转写与口语语义理解。
文档与版面：OCR + 布局编码保留阅读顺序与表格结构，再交给语言主干推理。

「对齐」的目标：让不同模态在语义上可比较、可组合，使用户能用自然语言统筹图像、声音与文字。

架构上常见组件

模态编码器：如 ViT、音频编码器等，经线性层/projector 对齐到 Transformer 块维度。
统一序列：图像 patch、音频帧特征等拍成类 token 序列，配合特殊符接入自注意力。
生成侧：文本自回归最常见；图像/声音可接扩散、声码器等专用解码器。