跳转至

模型架构演进

从 2017 年 Transformer 诞生到如今的千亿参数大模型,LLM 的架构经历了从"理解语言"到"生成一切"的深刻演变。本页梳理各里程碑式模型的核心创新,帮助理解 LLM 技术是如何一步步走到今天的。


三大架构路线

Transformer 原始论文包含编码器和解码器两部分,后续研究沿着三条路线分别发展:

graph TD
    A["Transformer<br>(2017)"] --> B["Encoder-Only<br>BERT 路线"]
    A --> C["Decoder-Only<br>GPT 路线"]
    A --> D["Encoder-Decoder<br>T5 路线"]
    B --> B1["BERT → RoBERTa → ALBERT → DeBERTa"]
    C --> C1["GPT-1 → GPT-2 → GPT-3 → ChatGPT → GPT-4"]
    C --> C2["LLaMA → LLaMA 2 → LLaMA 3"]
    C --> C3["Qwen → DeepSeek → ..."]
    D --> D1["T5 → BART → mT5"]
    style C fill:#e8f5e9

当前 LLM 的主流选择是 Decoder-Only 架构,以下重点围绕这条主线展开。


Encoder-Only:理解型模型

BERT(2018,Google)

Bidirectional Encoder Representations from Transformers

BERT 是第一个通过"预训练 + 微调"范式在多项 NLP 任务上取得巨大突破的模型。

核心创新:

  • 双向上下文理解:不同于从左到右的 GPT,BERT 通过掩码语言模型(MLM)同时看到左右两边的上下文
  • 预训练任务:MLM(随机遮住 15% 的词让模型猜)+ NSP(预测两个句子是否连续)
  • 微调范式:预训练一个通用模型,再在具体任务上微调少量数据
规格 BERT-Base BERT-Large
层数 12 24
隐藏维度 768 1024
注意力头数 12 16
参数量 110M 340M

BERT 的局限

BERT 擅长理解(分类、抽取、匹配),但不擅长生成。因为 MLM 训练时有 [MASK],推理时却没有,存在训练-推理不一致的问题。

后 BERT 时代的改进

模型 核心改进
RoBERTa 去掉 NSP 任务、更多数据、更长训练
ALBERT 参数共享 + 因式分解 Embedding,大幅减少参数
DeBERTa 解耦注意力机制(内容和位置分开计算)
ELECTRA 用"判别器"替代 MLM(判断每个词是否被替换),训练效率更高

Decoder-Only:生成型模型(主流)

GPT-1(2018,OpenAI)

Generative Pre-trained Transformer

与 BERT 同期但走了完全不同的路线——从左到右的自回归生成

核心思想: - 用因果语言模型(CLM)做预训练:预测下一个 Token - 证明了无监督预训练 + 有监督微调的有效性

规格 GPT-1
层数 12
参数量 117M
训练数据 BookCorpus(约 5GB)

GPT-2(2019,OpenAI)

核心突破:证明了"规模 + 数据 = 涌现能力"

  • 参数量扩大到 1.5B(GPT-1 的 13 倍)
  • 训练数据 WebText(40GB 高质量网页文本)
  • Zero-shot 能力:无需微调,直接通过 Prompt 完成各种任务

GPT-2 论文标题

"Language Models are Unsupervised Multitask Learners"
语言模型是无监督的多任务学习者——只要训练"预测下一个词",它就自动学会了翻译、摘要、问答等多种任务。

GPT-3(2020,OpenAI)

核心突破:In-Context Learning(上下文学习)

规格 GPT-3
参数量 175B(史无前例)
训练数据 300B Token
上下文窗口 2048 Token

GPT-3 展示了一个惊人的能力:不用微调,只需在 Prompt 中给几个例子(Few-shot),模型就能学会新任务。这彻底改变了 NLP 的范式——从"训练专用模型"走向"一个模型做所有事"。

同时,GPT-3 相关研究催生了 Scaling Laws,揭示了模型性能与参数量、数据量的幂律关系。

InstructGPT / ChatGPT(2022,OpenAI)

核心突破:人类对齐(RLHF)

GPT-3 虽然强大,但经常"不听话"——回答跑题、输出有害内容、编造事实。InstructGPT 通过三阶段训练(SFT → 奖励模型 → PPO)解决了这些问题。

ChatGPT 基于 InstructGPT 的方法论,加上对话格式的微调,成为了引爆全球 AI 热潮的产品。

GPT-4(2023,OpenAI)

核心突破:多模态理解

  • 支持图像和文本的混合输入
  • 在各种专业考试中达到人类水平(律师考试前 10%)
  • 具体架构未公开,外界推测为 MoE(混合专家) 架构

开源大模型

LLaMA 系列(Meta)

LLaMA 是开源 LLM 领域最具影响力的系列,开启了开源大模型的繁荣生态。

LLaMA 1(2023)

核心贡献:用更小的模型 + 更多的数据,追上更大的模型

受 Chinchilla Scaling Laws 启发,LLaMA 在相同尺寸下用远超常规的数据量训练:

模型 参数量 训练 Token
LLaMA-7B 7B 1T
LLaMA-13B 13B 1T
LLaMA-65B 65B 1.4T

LLaMA-13B 在多项评测上超过了 GPT-3(175B),证明了"数据 > 参数"的理念。

架构改进(相比原始 Transformer):

改进 说明
RMSNorm 用 RMSNorm 替代 LayerNorm,去掉了均值中心化,更快
Pre-Norm 归一化层放在注意力/FFN 之前(而非之后),训练更稳定
SwiGLU 用 SwiGLU 替代 ReLU 作为 FFN 的激活函数,效果更好
RoPE 旋转位置编码,能更好地捕捉相对位置信息,支持长度外推

这些改进后来几乎成了所有开源 LLM 的"标配"。

LLaMA 2(2023)

改进 内容
上下文窗口 2048 → 4096
训练数据 1T → 2T Token
GQA 34B/70B 采用分组查询注意力,推理更快
RLHF 首次在开源模型上大规模应用人类对齐

LLaMA 3(2024)

改进 内容
词汇表 32K → 128K(大幅提升中文/代码效率)
训练数据 2T → 15T Token(远超 Chinchilla 最优比例)
上下文窗口 4K → 8K(后续扩展到 128K)
全模型 GQA 所有尺寸均采用 GQA

Qwen 系列(阿里)

阿里通义千问系列,在中文能力上表现突出:

版本 核心特点
Qwen 1 注重中英双语,词汇表包含大量中文 Token
Qwen 1.5 对齐效果显著提升
Qwen 2 多语言支持、长上下文(128K)、MoE 变体
Qwen 2.5 模型矩阵丰富(0.5B~72B),编程/数学能力增强

DeepSeek 系列

DeepSeek 以极低成本训练出接近顶尖水平的模型,在业界引起巨大反响:

模型 核心创新
DeepSeek-V2 MLA(Multi-Head Latent Attention):将 KV 压缩到低秩潜空间,KV Cache 大幅缩减
DeepSeek-V3 MoE 架构 + 辅助损失无关的负载均衡策略
DeepSeek-R1 推理模型:通过 GRPO 强化学习训练,具备长思维链推理能力

MoE:混合专家架构

MoE(Mixture of Experts) 是扩大模型参数量同时控制计算成本的关键技术。

核心思想

将 FFN 层替换为多个"专家"网络,每次推理时只激活其中少数几个:

graph LR
    A["输入"] --> B["路由器<br>(Router/Gate)"]
    B -->|"权重 0.6"| C1["专家 1 ✓"]
    B -->|"权重 0.0"| C2["专家 2"]
    B -->|"权重 0.4"| C3["专家 3 ✓"]
    B -->|"权重 0.0"| C4["专家 4"]
    C1 --> D["加权求和"]
    C3 --> D
    D --> E["输出"]
  • 总参数量大(所有专家参数加起来),模型容量强
  • 激活参数量小(每次只用 2 个专家),计算成本低

Mixtral 8x7B 的例子

  • 总参数:约 47B(8 个 7B 大小的专家)
  • 每次激活:2 个专家 ≈ 13B 参数
  • 效果:接近 LLaMA-2-70B 的水平,但推理速度快得多

路由机制

路由器决定每个 Token 发送给哪些专家,这是 MoE 的关键设计:

路由方式 说明
Top-K 路由 每个 Token 选得分最高的 K 个专家处理
专家容量限制 每个专家处理的 Token 数有上限,防止负载不均
辅助损失 在训练损失中加入负载均衡项,鼓励专家被均匀使用

关键架构技术总结

技术 解决的问题 采用的模型
RoPE 位置编码,支持长度外推 LLaMA、Qwen、DeepSeek
GQA 减少 KV Cache 显存 LLaMA 2/3、Qwen 2
MLA 极致压缩 KV Cache DeepSeek-V2/V3
SwiGLU 更好的 FFN 激活函数 几乎所有现代 LLM
RMSNorm 更快的归一化 几乎所有现代 LLM
Pre-Norm 训练更稳定 几乎所有现代 LLM
MoE 扩大模型容量不增加计算 Mixtral、DeepSeek-V3、GPT-4(推测)
Flash Attention 加速注意力计算,减少显存 几乎所有现代训练/推理框架

发展脉络时间线

时间 模型 里程碑意义
2017.06 Transformer 注意力机制替代 RNN,并行计算
2018.06 GPT-1 生成式预训练 + 微调范式
2018.10 BERT 双向预训练,NLU 全面突破
2019.02 GPT-2 证明 Zero-shot 能力的涌现
2020.05 GPT-3 175B 参数,In-Context Learning
2022.03 InstructGPT RLHF 人类对齐技术
2022.11 ChatGPT 引爆全球 AI 热潮
2023.02 LLaMA 开源 LLM 生态起飞
2023.03 GPT-4 多模态理解,专业领域达人类水平
2023.07 LLaMA 2 首个大规模开源 RLHF 模型
2024.04 LLaMA 3 15T Token 训练,开源追平闭源
2024.12 DeepSeek-V3 MoE + MLA,低成本高性能
2025.01 DeepSeek-R1 开源推理模型,长思维链