Edit: 如果重新开始学数学，我会怎么选路线？

编辑文章

标题 *

URL 别名 *

内容 * (支持 Markdown 格式)

# 如果重新开始学数学，我会怎么选路线？

> 作者：阿菊  
> 来源：https://www.zhihu.com/question/598963323/answer/2034938624437900405  
> 由苑广山的知乎插件处理

---

## 一、核心观点：为AI与工程而学，而不是为“最全”而学

如果目标是 **IT、算法、AI大模型方向**，数学学习的最优路线不是学得最全，而是：

> 把函数、线性代数、概率统计、优化方法、数值计算学到**能写代码、能读论文、能排查模型问题**。

很多人学废，不是因为不聪明，而是路线错了：

- 一会儿高数
- 一会儿机器学习
- 一会儿补实变函数
- 收藏夹几百个视频
- 笔记只写了三页

在大模型时代更明显：

- 会调 API 的人越来越多
- 真正能理解模型不稳定、泛化差、训练崩溃、推理成本高的人更少
- 数学能力反而更值钱

但注意：

> 不是所有数学都值钱。工程师需要的是“可落地的数学”。

---

# 二、分阶段学习路线

---

## 1️⃣ 第一阶段：重新学高中数学（恢复数学语言）

### 目标
不是刷难题，而是恢复数学语言。

### 重点模块

- 函数（最重要）
- 方程与不等式
- 数列
- 三角函数
- 向量
- 解析几何
- 概率统计基础

如果只能选重点：

> ✅ 优先函数

函数是后面所有内容的入口：

- 损失函数
- 排序函数
- 转化率函数
- 优化目标函数

很多人看不懂梯度下降，不是不会梯度下降，而是函数概念本身就虚。

### 学习方式

- 用普通高中教材（人教A版、北师大版都可以）
- 配基础练习册
- 不刷压轴题
- 每题写完整过程

> 目标：看到表达式能判断变化趋势、极值、变量关系。

### 时间安排

- 2~4周
- 每天1小时

---

## 2️⃣ 第二阶段：微积分（理解变化与累积）

### 核心目标

理解：

- 导数
- 偏导
- 链式法则
- 梯度
- 积分
- 泰勒展开（理解即可）

### 现实意义

- 反向传播 = 链式法则的大规模应用
- 优化器更新 = 导数
- loss 不降、梯度爆炸 ≈ 数学直觉不足

### 推荐材料

- 同济《高等数学》第七版
- MIT OCW 18.01
- 3Blue1Brown（可视化辅助）

### 学习重点

- 极限：知道在解决什么问题即可
- 导数：必须熟
- 多元函数与梯度
- 积分：面积、期望、累积意义

### 实践方法

每学一个概念，用 Python 可视化：

- 画 sigmoid / tanh / ReLU
- 模拟不同学习率下参数更新
- 观察梯度变化

### 时间

- 6~8周

---

## 3️⃣ 第三阶段：线性代数（AI最关键基础）

> 如果只能选一门数学重学，我选线性代数。

### 为什么重要？

大模型几乎全部是矩阵世界：

- embedding = 向量
- attention = 矩阵乘法
- LoRA = 低秩分解
- PCA / SVD = 降维与压缩
- 推理加速 = 矩阵运算优化

### 重点内容

- 向量空间
- 线性变换
- 矩阵乘法的本质
- 秩与基
- 特征值特征向量
- 正交投影
- SVD

不要沉迷行列式计算。

### 推荐材料

- Gilbert Strang《Introduction to Linear Algebra》
- MIT 18.06
- 同济线代（辅助）

### 时间

- 与微积分并行
- 约3个月入门
- 后续持续复习

---

## 4️⃣ 第四阶段：概率统计（工程落地核心）

AI落地最常见问题：

- 评估不稳
- 样本偏差
- AB实验误判
- 精确率与召回率冲突

本质都是统计问题。

### 概率论重点

- 随机变量
- 分布
- 期望
- 方差
- 条件概率
- 贝叶斯公式
- 大数定律
- 中心极限定理

### 统计学重点

- 参数估计
- 置信区间
- 假设检验
- 回归
- 最大似然
- 交叉熵

### 推荐材料

- 浙大概率论与数理统计
- 《All of Statistics》
- Think Stats

### 时间

- 2个月打底
- 长期持续使用

---

## 5️⃣ 第五阶段：优化方法（深度学习核心）

不学优化，只会“调用模型”。

### 必须理解

- 梯度下降
- 随机梯度下降
- mini-batch
- momentum
- Adam
- L1/L2 正则化
- 过拟合
- 凸与非凸

### 工程相关补充

- 学习率调度
- 梯度裁剪
- 混合精度训练
- loss scaling

### 推荐学习路径

- 吴恩达机器学习
- 李沐《动手学深度学习》
- Boyd《Convex Optimization》（进阶）

### 强制实践

从零实现：

- 线性回归
- 逻辑回归
- 两层神经网络
- 手写反向传播

不要一上来就跑 Transformer。

---

## 6️⃣ 离散数学 & 数值计算（工程补强）

### 离散数学

适合：后端 / 架构 / 系统 / 算法平台

重点：

- 集合
- 逻辑
- 图论
- 组合计数
- 递归
- 时间复杂度

推荐：Rosen《离散数学及其应用》

### 数值计算

与大模型推理成本密切相关：

- 浮点误差
- 条件数
- 稳定性
- FP16 / BF16 / INT8 / FP8
- 量化
- 并行加速

工程师不必成为专家，但必须理解基本概念。

---

# 三、学习方法

## ✅ 1. 少看视频，多动笔

每章做 20~30 道基础题。

数学必须输出。

---

## ✅ 2. 每个概念都写代码验证

例如：

- 导数 → 画切线
- 梯度下降 → 自写参数更新
- PCA → numpy 实现
- 概率分布 → 采样绘图

IT从业者的优势：可以立刻验证数学。

---

## ✅ 3. 建立“概念卡片”

记录真正卡住的问题，例如：

- 为什么 softmax 接交叉熵？
- 为什么协方差矩阵半正定？
- 为什么 SVD 能降维？
- 为什么学习率大会震荡？

三个月后，这些笔记价值远超收藏夹。

---

# 四、完整六个月时间表

| 时间 | 内容 | 目标 |
|------|------|------|
| 第1个月 | 高中函数、数列、向量、解析几何、概率 | 恢复数学语言 |
| 第2-3个月 | 微积分 + 线代 | 能理解梯度与矩阵 |
| 第4个月 | 概率统计 + ML基础 | 会线性回归、逻辑回归、PCA |
| 第5个月 | 优化 + 深度学习基础 | 手写反向传播 |
| 第6个月 | Transformer / Attention / RAG / LoRA | 能读经典论文 |

建议重点论文：

- Attention Is All You Need
- BERT
- GPT 系列综述
- LoRA
- RAG 相关经典论文

---

# 五、最终目标

六个月后：

- 不是数学专家
- 但能理解模型与系统
- 不再是纯“调包工程师”

如果未来做研究，再补：

- 信息论
- 统计学习理论
- 矩阵分析
- 测度概率
- 随机过程

如果只是做工程落地：

> 不要一开始就陷入过深理论。

---

# 总结路线

从高中数学开始 → 函数 → 微积分 → 线性代数 → 概率统计 → 优化 → 离散与数值计算  
配合代码 + 实战项目

半年即可产生明显变化。

配图 (可多选)

选择新图片文件或拖拽到此处

标签