光屿云霞科技
技术🏗️ 架构设计2026-05-28·1 分钟阅读

大模型进阶·之二:深度学习地基:先把表征、梯度和优化吃透

用三本免费/开放材料把深度学习的数学直觉、优化过程和网络结构补齐,为后面的 LLM 打好地基。

AI深度学习数学基础嵌入式

大模型进阶·之二:深度学习地基:先把表征、梯度和优化吃透

深度学习不是背公式,而是把数据、参数和误差放进一个能不断优化的系统里。
真正难的不是“知道一个术语”,而是“知道它在系统里扮演什么角色”。

为什么先学深度学习

大模型看起来很新,但底层仍然是深度学习。
如果你跳过这一步,直接去学 LLM、RAG、Agent,很多概念会变成“会说不会懂”。

深度学习这一步,主要补三件事:

  • 表示:数据怎样从原始输入变成可学习的特征。
  • 优化:参数怎样通过损失函数和梯度一步步收敛。
  • 泛化:为什么训练集上好,不代表真实场景就一定好。

三本材料怎么配合

1. 动手学深度学习

动手学深度学习 是最适合先读的主线。
它的好处是代码、公式、图示都在一起,适合边看边跑。

你重点抓这些章节:

  • 线性代数和自动求导
  • 多层感知机
  • 卷积神经网络
  • 序列模型
  • 注意力机制

2. Deep Learning

Deep Learning 更适合补理论地基。
它把数学、优化、正则化、历史脉络讲得更完整,适合你在理解“为什么”时翻回去查。

3. The Little Book of Deep Learning

The Little Book of Deep Learning 是最适合口述和快速复习的补充材料。
它篇幅短、结构紧,适合在你已经知道大概框架后,再把关键点压实。

必须吃透的核心概念

这些词你不需要死背定义,但一定要知道它们在做什么:

  • 张量:多维数据的统一表示。
  • 前向传播:数据从输入流向输出。
  • 反向传播:误差如何回传到参数。
  • 损失函数:模型“做得好不好”的量化标准。
  • 梯度下降:如何沿着误差下降的方向更新参数。
  • 正则化:如何避免模型只记住训练集。
  • 卷积:如何提取局部模式。
  • 序列建模:如何处理时间相关或上下文相关数据。

嵌入式工程师的类比

你可以把深度学习理解成一个自动调参的闭环系统:

  • 输入数据像传感器采样
  • 参数像固件里的可调配置
  • 损失函数像误差指标
  • 梯度下降像控制器根据误差不断修正
  • 正则化像给系统加上约束,防止漂移

这个类比很重要,因为它能帮你把“训练”从神秘词汇,变回工程过程。

学完以后要能讲什么

至少要能说清楚:

  • 模型为什么需要训练,而不是直接写规则。
  • 为什么参数越多不一定越好,数据和约束同样重要。
  • 为什么一个模型在训练集上表现好,不代表在真实环境里也稳。
  • 为什么从深度学习走到大模型,不是换了世界,而是放大了同一套原理。

下一步

下一篇我们进入 Transformer 和 LLM 的核心结构。
你会看到 token、embedding、attention、KV Cache 这些词到底是怎么连起来的。

评论功能需要配置 Giscus 环境变量

请访问 giscus.app 获取配置信息