大模型进阶之三：Transformer 与 LLM 原理：token、注意力、KV Cache

大模型不是“理解了文本”，而是“在上下文里预测下一步最合适的 token”。
真正的关键，不是术语本身，而是这些术语在流水线里怎么协作。

一句话先说明白

Transformer 是今天大模型最核心的骨架之一。
它解决的问题不是“把句子背下来”，而是“让模型在长上下文里，找到哪些信息更该被关注”。

文本不能直接喂给模型，必须先切成 token。

你可以把 token 理解成模型能处理的最小文本单元，可能是字、词、子词或者更小的片段。

为什么这一步重要？

token 只是离散编号，模型需要把它变成向量。
embedding 就是在做这件事：把离散符号映射成连续空间里的表示。

这有点像嵌入式里的地址映射或查表，但又不完全是查表，因为这个映射会在训练中不断更新。

Self-Attention 解决的是“当前这个位置，应该重点看上下文里的哪些位置”。

你可以把它想成：

这就是为什么 Transformer 能比很多早期序列模型更擅长处理长距离依赖。

在推理时，模型会一步一步生成 token。
如果每生成一个新 token 都把前面的内容重新算一遍，效率会非常低。

KV Cache 的作用，就是把已经算过的 key/value 缓存起来，减少重复计算。

对工程师来说，这和缓存中间结果、避免重复 DSP 运算、减少重复查表，本质上是同一种优化思路。

这些词不只是术语，它们会直接影响质量、速度和成本。

如果你要给非工程师讲，可以这么说：

大模型像一个很会续写的系统。它先把文字切块，再把每个块变成向量，然后在上下文里决定哪些地方更重要，最后一步一步生成下一段内容。

如果你要给工程师讲，可以再加一句：

它不是查知识库，而是在大上下文里做概率生成，所以输入组织方式、缓存策略和上下文长度都会直接影响效果。

下一篇我们看训练、微调和对齐。
因为理解了结构之后，下一步就要搞清楚：模型是怎么被训练出来，又是怎么被改成“能用”的。