Skip to content

Bowling's TechStack

LLM

LLM¶

从 D2L 到 LLM¶

要点是：

MLP → 只能处理固定输入，缺乏序列建模能力

RNN/LSTM → 引入时序，但长程依赖差

Attention → 并行计算 + 全局依赖建模，核心突破

Transformer → 架构集成 Attention + FFN + 残差/归一化

Decoder-only Transformer → GPT 系列的核心结构

LLM → 在 Transformer 基础上加大规模 + 算力 + 对齐/推理优化，形成今天的大语言模型

阶段 1：复习 & 夯实基础（MLP → 序列建模）¶

MLP 局限性
- MLP 只能处理固定维度输入，缺乏处理序列数据的能力。
- 复习一下为什么 RNN / CNN 曾经被用于序列建模。
- 重点：理解 为什么需要新架构（上下文依赖、长程依赖问题）。

👉 学习方法

用 PyTorch 实现一个小 MLP 做分类任务，加深对“只能处理固定输入”的认识。
阅读 RNN/LSTM 的简单教程，理解它们解决什么问题，但为什么有局限。

阶段 2：Attention 机制（LLM 的核心思想）¶

核心动机：RNN 难以建模长程依赖，Attention 提供了“全局依赖 + 并行计算”的方案。
关键知识点
- 点积注意力（Dot-Product Attention）
- Q（Query）、K（Key）、V（Value）的定义与矩阵计算
- Self-Attention（输入序列对自己做 Attention）
- 多头注意力（Multi-Head Attention）的意义
重点：
- 数学公式会推导，但更要直观理解：注意力就是相关性加权求和。
- 理解 Attention 的时间复杂度是 O(n²)，这也是 LLM 训练/推理的主要瓶颈。

👉 学习方法

推荐：The Illustrated Transformer（可视化讲解 Attention）。
自己手写实现一个 Self-Attention 层（不用库封装），输入几个向量看看输出效果。

阶段 3：Transformer 架构¶

基础结构
- Encoder/Decoder 结构（最初为机器翻译提出）
- Decoder-only Transformer（GPT 系列 LLM 使用的简化版）
关键模块
- 位置编码（sinusoidal / RoPE）
- 前馈网络（FFN / MLP）
- 残差连接 + LayerNorm
- 掩码机制（Mask Attention，用于语言建模）
重点：
- 搞懂 解码器（Decoder-only） 才是 GPT 类 LLM 的主干。
- 位置编码为什么必须有，RoPE/ALiBi 之类改进解决什么问题。

👉 学习方法

阅读原始论文《Attention Is All You Need》但只抓主干图。
动手：用 PyTorch 实现一个 迷你 Transformer（几层、几百万参数），在小数据集上训练语言建模。

阶段 4：从 Transformer 到 LLM¶

Transformer → GPT（语言模型）
- 自回归训练目标（预测下一个 token）。
- 大数据 + 大模型 + 大算力 → emergent abilities（涌现能力）。
LLM 的关键技术点
- 训练：大规模分布式（数据并行 / 模型并行）。
- 推理：KV-Cache、连续批处理、量化。
- 对齐：SFT（监督微调）、RLHF/DPO（人类反馈对齐）。
重点：
- Transformer 架构本身并不神奇，LLM 的关键是 规模 + 算力 + 工程。
- 要明确区分 架构（Transformer） 与 应用范式（LLM）。

👉 学习方法

先看 GPT-2 论文（比 GPT-3 简单），理解解码式语言建模。
再看 Chinchilla 论文（数据量与模型大小的关系）。
了解 LLaMA 系列是如何在学术界/开源界复现 GPT 思路的。

📌 学习重点总结¶

Attention：这是 LLM 的灵魂，要透彻理解。
Decoder-only Transformer：这是 GPT 类 LLM 的核心架构。
语言建模目标：下一个 token 的预测，这点简单但核心。
工程扩展：LLM 的规模化训练 & 推理优化，是区别“会用 Transformer”和“会做 LLM”的分水岭。

🚀 学习方式建议¶

先概念后实现：每学一个模块（Attention / Transformer），都手写一个小实现。
小步快跑：从几百万参数的模型练手，再逐步理解大规模 LLM 的工程挑战。
边学边对比：把 “原始 Transformer” 与 “LLM（GPT 系列）” 放在一起，思考差异。

要不要我帮你画一张 从 MLP → Transformer → LLM 的知识关系图，把关键概念和演进路线在一张图里理清？