光屿云霞科技
技术🏗️ 架构设计2026-05-28·1 分钟阅读

大模型进阶·之三:Transformer 与 LLM 原理:token、注意力、KV Cache

把 token、embedding、attention、上下文窗口和 KV Cache 讲成工程师能抓住的系统流程。

AITransformerLLM原理

大模型进阶·之三:Transformer 与 LLM 原理:token、注意力、KV Cache

大模型不是“理解了文本”,而是“在上下文里预测下一步最合适的 token”。
真正的关键,不是术语本身,而是这些术语在流水线里怎么协作。

一句话先说明白

Transformer 是今天大模型最核心的骨架之一。
它解决的问题不是“把句子背下来”,而是“让模型在长上下文里,找到哪些信息更该被关注”。

从 token 开始

文本不能直接喂给模型,必须先切成 token。

你可以把 token 理解成模型能处理的最小文本单元,可能是字、词、子词或者更小的片段。

为什么这一步重要?

  • token 决定输入长度
  • token 决定词表规模
  • token 也会影响成本和上下文窗口利用率

embedding 在干什么

token 只是离散编号,模型需要把它变成向量。
embedding 就是在做这件事:把离散符号映射成连续空间里的表示。

这有点像嵌入式里的地址映射或查表,但又不完全是查表,因为这个映射会在训练中不断更新。

attention 为什么是核心

Self-Attention 解决的是“当前这个位置,应该重点看上下文里的哪些位置”。

你可以把它想成:

  • 不是所有信息都同权
  • 模型会根据当前上下文,给不同位置分配不同关注度
  • 关注度高的内容,会更强地影响输出

这就是为什么 Transformer 能比很多早期序列模型更擅长处理长距离依赖。

KV Cache 为什么重要

在推理时,模型会一步一步生成 token。
如果每生成一个新 token 都把前面的内容重新算一遍,效率会非常低。

KV Cache 的作用,就是把已经算过的 key/value 缓存起来,减少重复计算。

对工程师来说,这和缓存中间结果、避免重复 DSP 运算、减少重复查表,本质上是同一种优化思路。

你要记住的几个词

  • Context window:模型一次能“看见”的上下文长度。
  • Prefill:把已有输入先算一遍。
  • Decoding:一个 token 一个 token 地往外生成。
  • Temperature:输出随机性的调节旋钮。
  • Top-p:控制候选 token 的概率截断方式。

这些词不只是术语,它们会直接影响质量、速度和成本。

讲给别人听的版本

如果你要给非工程师讲,可以这么说:

大模型像一个很会续写的系统。它先把文字切块,再把每个块变成向量,然后在上下文里决定哪些地方更重要,最后一步一步生成下一段内容。

如果你要给工程师讲,可以再加一句:

它不是查知识库,而是在大上下文里做概率生成,所以输入组织方式、缓存策略和上下文长度都会直接影响效果。

下一步

下一篇我们看训练、微调和对齐。
因为理解了结构之后,下一步就要搞清楚:模型是怎么被训练出来,又是怎么被改成“能用”的。

评论功能需要配置 Giscus 环境变量

请访问 giscus.app 获取配置信息