CS 336 Lecture 1: 绪论与分词 (Introduction and Tokenization)

1. 语言模型架构 (Architecture)

大语言模型（LLM）的性能不仅取决于规模，还取决于架构组件的选择。以下是当前主流架构的组成部分：

激活函数 (Activation Functions):

位置编码 (Positional Encodings):

归一化层 (Normalization):

归一化位置 (Placement of Norm):

多层感知机 (MLP):

注意力机制 (Attention):

低维注意力优化:

状态空间模型 (SSM):

训练的稳定性和效率由优化器和超参数共同决定。

优化器 (Optimizer): AdamW (标配), Muon, SOAP。
学习率调度 (Learning Rate Schedule):
- Cosine: 余弦退火调度。
- WSD (Warmup-Stable-Decay): 预热-稳定-衰减三段式。
批大小 (Batch Size): 寻找 临界批大小 (Critical Batch Size)，以平衡并行度与收敛效率。
正则化 (Regularization): Dropout (现代大模型用得较少), Weight Decay (权重衰减)。
超参数搜索: 对 Number of heads (头数), Hidden dimension (隐藏层维度) 进行网格搜索。

分词是将原始字符转换为模型可理解的 Token (词元) 的过程。

常见的策略：

核心思路 (Sketch):

BPE 示例：首先按字分词，统计所有二元 Token 对频率，将最频繁的对合并（例如：i, t -> it）。此操作会将新词加入词表，逐步扩展 Vocabulary。

Tokenization 的效率可以用压缩比来衡量：

Compression Ratio = \frac{原始总字节数 (Bytes)}{分词后的 Token 数 (Tokens)}

词表越大，通常压缩比越高，模型处理相同内容所需的序列长度就越短。