大模型进阶·之三:Transformer 与 LLM 原理:token、注意力、KV Cache
大模型不是“理解了文本”,而是“在上下文里预测下一步最合适的 token”。
真正的关键,不是术语本身,而是这些术语在流水线里怎么协作。
一句话先说明白
Transformer 是今天大模型最核心的骨架之一。
它解决的问题不是“把句子背下来”,而是“让模型在长上下文里,找到哪些信息更该被关注”。
从 token 开始
文本不能直接喂给模型,必须先切成 token。
你可以把 token 理解成模型能处理的最小文本单元,可能是字、词、子词或者更小的片段。
为什么这一步重要?
- token 决定输入长度
- token 决定词表规模
- token 也会影响成本和上下文窗口利用率
embedding 在干什么
token 只是离散编号,模型需要把它变成向量。
embedding 就是在做这件事:把离散符号映射成连续空间里的表示。
这有点像嵌入式里的地址映射或查表,但又不完全是查表,因为这个映射会在训练中不断更新。
attention 为什么是核心
Self-Attention 解决的是“当前这个位置,应该重点看上下文里的哪些位置”。
你可以把它想成:
- 不是所有信息都同权
- 模型会根据当前上下文,给不同位置分配不同关注度
- 关注度高的内容,会更强地影响输出
这就是为什么 Transformer 能比很多早期序列模型更擅长处理长距离依赖。
KV Cache 为什么重要
在推理时,模型会一步一步生成 token。
如果每生成一个新 token 都把前面的内容重新算一遍,效率会非常低。
KV Cache 的作用,就是把已经算过的 key/value 缓存起来,减少重复计算。
对工程师来说,这和缓存中间结果、避免重复 DSP 运算、减少重复查表,本质上是同一种优化思路。
你要记住的几个词
- Context window:模型一次能“看见”的上下文长度。
- Prefill:把已有输入先算一遍。
- Decoding:一个 token 一个 token 地往外生成。
- Temperature:输出随机性的调节旋钮。
- Top-p:控制候选 token 的概率截断方式。
这些词不只是术语,它们会直接影响质量、速度和成本。
讲给别人听的版本
如果你要给非工程师讲,可以这么说:
大模型像一个很会续写的系统。它先把文字切块,再把每个块变成向量,然后在上下文里决定哪些地方更重要,最后一步一步生成下一段内容。
如果你要给工程师讲,可以再加一句:
它不是查知识库,而是在大上下文里做概率生成,所以输入组织方式、缓存策略和上下文长度都会直接影响效果。
下一步
下一篇我们看训练、微调和对齐。
因为理解了结构之后,下一步就要搞清楚:模型是怎么被训练出来,又是怎么被改成“能用”的。