架构师进阶之一：部署、LLMOps、数据治理与边缘推理

架构师不是把模型“跑起来”就结束了，而是要让它长期、稳定、可观测、可迭代地跑下去。
你要管的不是一条请求，而是一整条能力链路。

架构师到底在管什么

当大模型进入真实系统以后，问题会从“回答得好不好”变成：

这就是架构师的活。

一个常见的 LLM 应用，通常会有这些层：

你要看的不是某个模块本身，而是模块之间怎么配合。

大模型部署时，性能优化往往比“换一个更大模型”更重要。

常见手段包括：

如果你做边缘或本地推理，还要特别关注：

可深入看的官方资料包括 vLLM、llama.cpp、NVIDIA TensorRT-LLM 和 NVIDIA TensorRT。

LLMOps 可以理解成“大模型时代的持续交付体系”。

你至少要关心这些事：

数据治理尤其重要，因为大模型系统很容易把日志、上下文、检索数据和用户输入混在一起。
一旦管不好，就会在安全、合规和稳定性上出问题。

嵌入式工程师的独特优势，在边缘推理场景里会被放大。

你天然会关心：

这也是为什么嵌入式背景的人做 LLM 架构，不只是“懂一点硬件”，而是很容易在资源约束和系统设计上形成优势。

下一篇进入“架构师进阶之二”，我们不再看技术模块，而是看你怎么把这些东西讲给别人听。
因为真正能带团队的人，不只是会做，还要会讲、会拆、会教。