光屿云霞科技

技术大模型2026-05-28·1 分钟阅读

大模型进阶之二：深度学习地基：先把表示、梯度和优化吃透

用三本免费/开放材料把深度学习的数学直觉、优化过程和网络结构补齐，为后面的 LLM 打好地基。

大模型

大模型进阶之二：深度学习地基：先把表示、梯度和优化吃透

深度学习不是背公式，而是把数据、参数和误差放进一个能不断优化的系统里。
真正难的不是“知道一个术语”，而是“知道它在系统里扮演什么角色”。

为什么先学深度学习

大模型看起来很新，但底层仍然是深度学习。
如果你跳过这一步，直接去学 LLM、RAG、Agent，很多概念会变成“会说不会懂”。

深度学习这一步，主要补三件事：

表示：数据怎样从原始输入变成可学习的特征。
优化：参数怎样通过损失函数和梯度一步步收敛。
泛化：为什么训练集上好，不代表真实场景就一定好。

三本材料怎么配合

1. 动手学深度学习

动手学深度学习是最适合先读的主线。
它的好处是代码、公式、图示都在一起，适合边看边跑。

你重点抓这些章节：

线性代数和自动求导
多层感知机
卷积神经网络
序列模型
注意力机制

2. Deep Learning

Deep Learning 更适合补理论地基。
它把数学、优化、正则化、历史脉络讲得更完整，适合你在理解“为什么”时翻回去查。

3. The Little Book of Deep Learning

The Little Book of Deep Learning 是最适合口述和快速复习的补充材料。
它篇幅短、结构紧，适合在你已经知道大概框架后，再把关键点压实。

必须吃透的核心概念

这些词你不需要死背定义，但一定要知道它们在做什么：

张量：多维数据的统一表示。
前向传播：数据从输入流向输出。
反向传播：误差如何回传到参数。
损失函数：模型“做得好不好”的量化标准。
梯度下降：如何沿着误差下降的方向更新参数。
正则化：如何避免模型只记住训练集。
卷积：如何提取局部模式。
序列建模：如何处理时间相关或上下文相关数据。

嵌入式工程师的类比

你可以把深度学习理解成一个自动调参的闭环系统：

输入数据像传感器采样
参数像固件里的可调配置
损失函数像误差指标
梯度下降像控制器根据误差不断修正
正则化像给系统加上约束，防止漂移

这个类比很重要，因为它能帮你把“训练”从神秘词汇，变回工程过程。

学完以后要能讲什么

至少要能说清楚：

模型为什么需要训练，而不是直接写规则。
为什么参数越多不一定越好，数据和约束同样重要。
为什么一个模型在训练集上表现好，不代表在真实环境里也稳。
为什么从深度学习走到大模型，不是换了世界，而是放大了同一套原理。

下一步

下一篇我们进入 Transformer 和 LLM 的核心结构。
你会看到 token、embedding、attention、KV Cache 这些词到底是怎么连起来的。

系列导航

大模型进阶

第 2 / 5 篇

大模型进阶之一：嵌入式工程师的大模型学习地图与认知框架

大模型进阶之三：Transformer 与 LLM 原理：token、注意力、KV Cache

返回总索引

相关文章

大模型进阶之一：嵌入式工程师的大模型学习地图与认知框架

大模型进阶之三：Transformer 与 LLM 原理：token、注意力、KV Cache

大模型进阶之四：训练、微调与对齐：让模型变得有用

评论功能需要配置 Giscus 环境变量

请访问 giscus.app 获取配置信息