大语言模型(Large Language Model)¶
大语言模型(LLM)是基于 Transformer 架构、在海量文本数据上预训练的超大规模神经网络,具备理解和生成自然语言的强大能力,是当前人工智能最前沿的研究方向之一。
什么是大语言模型?¶
简单来说,LLM 就是一个超级版的"文字接龙"系统——给它一句话的开头,它能根据学到的知识和语言规律,高质量地续写下去。
一句话理解
LLM = Transformer 架构 + 海量训练数据 + 超大模型参数 + 精巧的训练策略
但 LLM 的能力远不止"接龙"。当模型的参数量和训练数据量突破某个临界点后,会涌现(Emergence)出一系列令人惊叹的能力:
- 上下文学习(In-Context Learning):不用重新训练模型,只需在提示词中给几个例子,模型就能学会新任务
- 思维链推理(Chain-of-Thought):模型能一步步推理复杂问题,而非直接给出答案
- 指令遵循(Instruction Following):经过对齐训练后,模型能精确理解并执行人类的多样化指令
核心概念速览¶
1. 从文本到数字:分词(Tokenization)¶
模型无法直接处理文字。分词器(Tokenizer) 负责将文本切分为模型能处理的最小单元(Token),再映射为数字 ID。
主流方法有 BPE、WordPiece 等,它们通过统计规律自动学习最优的切分方式,平衡了词汇表大小和语义表达能力。
→ 详见 📒 分词与词汇表
2. 模型架构:三大范式¶
Transformer 是 LLM 的骨架,但不同任务催生了三种主流架构变体:
| 架构 | 代表模型 | 核心思想 | 典型任务 |
|---|---|---|---|
| Encoder-Only | BERT、RoBERTa | 双向理解上下文 | 文本分类、命名实体识别 |
| Decoder-Only | GPT 系列、LLaMA | 从左到右自回归生成 | 文本生成、对话、代码 |
| Encoder-Decoder | T5、BART | 编码输入 + 解码输出 | 翻译、摘要 |
当前 LLM 的主流趋势是 Decoder-Only 架构——GPT、LLaMA、Qwen、DeepSeek 等均采用此范式。
→ 详见 📒 Transformer | 模型架构演进
3. 训练流程:三阶段范式¶
现代 LLM 的训练通常遵循三个阶段:
graph LR
A["🔤 预训练<br>Pre-training"] --> B["🎯 监督微调<br>SFT"]
B --> C["🤝 人类对齐<br>RLHF / DPO"]
style A fill:#e3f2fd
style B fill:#fff3e0
style C fill:#e8f5e9
- 预训练(Pre-training):在数万亿 Token 的文本上学习语言的通用知识和规律
- 监督微调(SFT):用高质量的"问-答"数据教模型学会按指令回答问题
- 人类对齐(Alignment):通过 RLHF 或 DPO 等技术,让模型的输出符合人类的偏好和价值观
4. Scaling Laws:大力出奇迹¶
OpenAI 在 2020 年提出的 缩放定律(Scaling Laws) 揭示了 LLM 的一个核心规律:
其中 \(L\) 是模型损失,\(N\) 是参数量,\(D\) 是训练数据量。简单来说:
- 模型越大(参数越多)→ 性能越好
- 数据越多 → 性能越好
- 两者的提升遵循幂律关系,效果可以预测
这条定律驱动了整个行业从几亿参数走向万亿参数的军备竞赛。
5. 使用 LLM 的方式¶
对于普通用户和开发者来说,使用 LLM 主要有两种路径:
| 方式 | 说明 | 适用场景 |
|---|---|---|
| 提示工程(Prompt Engineering) | 精心设计输入提示,引导模型输出高质量答案 | 快速应用、日常使用 |
| 检索增强生成(RAG) | 先检索相关知识,再让模型基于知识回答 | 需要实时/专业知识的场景 |
| 微调(Fine-tuning) | 在特定领域数据上进一步训练模型 | 垂直领域深度定制 |
6. 推理优化:让大模型跑得更快¶
LLM 的推理成本极高(每次生成都要遍历数十亿参数),因此工程上发展出了大量优化技术:
- KV Cache:缓存已计算的注意力键值对,避免重复计算
- 量化(Quantization):将模型权重从 FP16 压缩到 INT8/INT4,减少显存占用
- 推测解码(Speculative Decoding):用小模型"猜"多个 Token,再让大模型一次性验证
→ 详见 📒 推理优化
学习路线¶
建议按照以下顺序学习,由底层原理到上层应用层层递进:
第一阶段:理解底层架构¶
- 📒 Transformer — 一切 LLM 的基石,理解注意力机制、编码器-解码器结构
- 📒 分词与词汇表 — 理解文本如何变成模型可处理的数字
第二阶段:掌握训练范式¶
- 📒 预训练 — 理解语言建模目标、Scaling Laws、预训练数据处理
- 📒 模型架构演进 — 从 GPT-1 到 GPT-4、LLaMA、DeepSeek 的技术发展脉络
- 📒 微调与对齐 — SFT、RLHF、DPO 等让模型"听话"的关键技术