大模型进阶·之二:深度学习地基:先把表征、梯度和优化吃透
深度学习不是背公式,而是把数据、参数和误差放进一个能不断优化的系统里。
真正难的不是“知道一个术语”,而是“知道它在系统里扮演什么角色”。
为什么先学深度学习
大模型看起来很新,但底层仍然是深度学习。
如果你跳过这一步,直接去学 LLM、RAG、Agent,很多概念会变成“会说不会懂”。
深度学习这一步,主要补三件事:
- 表示:数据怎样从原始输入变成可学习的特征。
- 优化:参数怎样通过损失函数和梯度一步步收敛。
- 泛化:为什么训练集上好,不代表真实场景就一定好。
三本材料怎么配合
1. 动手学深度学习
动手学深度学习 是最适合先读的主线。
它的好处是代码、公式、图示都在一起,适合边看边跑。
你重点抓这些章节:
- 线性代数和自动求导
- 多层感知机
- 卷积神经网络
- 序列模型
- 注意力机制
2. Deep Learning
Deep Learning 更适合补理论地基。
它把数学、优化、正则化、历史脉络讲得更完整,适合你在理解“为什么”时翻回去查。
3. The Little Book of Deep Learning
The Little Book of Deep Learning 是最适合口述和快速复习的补充材料。
它篇幅短、结构紧,适合在你已经知道大概框架后,再把关键点压实。
必须吃透的核心概念
这些词你不需要死背定义,但一定要知道它们在做什么:
- 张量:多维数据的统一表示。
- 前向传播:数据从输入流向输出。
- 反向传播:误差如何回传到参数。
- 损失函数:模型“做得好不好”的量化标准。
- 梯度下降:如何沿着误差下降的方向更新参数。
- 正则化:如何避免模型只记住训练集。
- 卷积:如何提取局部模式。
- 序列建模:如何处理时间相关或上下文相关数据。
嵌入式工程师的类比
你可以把深度学习理解成一个自动调参的闭环系统:
- 输入数据像传感器采样
- 参数像固件里的可调配置
- 损失函数像误差指标
- 梯度下降像控制器根据误差不断修正
- 正则化像给系统加上约束,防止漂移
这个类比很重要,因为它能帮你把“训练”从神秘词汇,变回工程过程。
学完以后要能讲什么
至少要能说清楚:
- 模型为什么需要训练,而不是直接写规则。
- 为什么参数越多不一定越好,数据和约束同样重要。
- 为什么一个模型在训练集上表现好,不代表在真实环境里也稳。
- 为什么从深度学习走到大模型,不是换了世界,而是放大了同一套原理。
下一步
下一篇我们进入 Transformer 和 LLM 的核心结构。
你会看到 token、embedding、attention、KV Cache 这些词到底是怎么连起来的。