如果重新开始学数学,我会怎么选路线?
作者:阿菊
来源:https://www.zhihu.com/question/598963323/answer/2034938624437900405
由苑广山的知乎插件处理
一、核心观点:为AI与工程而学,而不是为“最全”而学
如果目标是 IT、算法、AI大模型方向,数学学习的最优路线不是学得最全,而是:
把函数、线性代数、概率统计、优化方法、数值计算学到能写代码、能读论文、能排查模型问题。
很多人学废,不是因为不聪明,而是路线错了:
- 一会儿高数
- 一会儿机器学习
- 一会儿补实变函数
- 收藏夹几百个视频
- 笔记只写了三页
在大模型时代更明显:
- 会调 API 的人越来越多
- 真正能理解模型不稳定、泛化差、训练崩溃、推理成本高的人更少
- 数学能力反而更值钱
但注意:
不是所有数学都值钱。工程师需要的是“可落地的数学”。
二、分阶段学习路线
1️⃣ 第一阶段:重新学高中数学(恢复数学语言)
目标
不是刷难题,而是恢复数学语言。
重点模块
- 函数(最重要)
- 方程与不等式
- 数列
- 三角函数
- 向量
- 解析几何
- 概率统计基础
如果只能选重点:
✅ 优先函数
函数是后面所有内容的入口:
- 损失函数
- 排序函数
- 转化率函数
- 优化目标函数
很多人看不懂梯度下降,不是不会梯度下降,而是函数概念本身就虚。
学习方式
- 用普通高中教材(人教A版、北师大版都可以)
- 配基础练习册
- 不刷压轴题
- 每题写完整过程
目标:看到表达式能判断变化趋势、极值、变量关系。
时间安排
- 2~4周
- 每天1小时
2️⃣ 第二阶段:微积分(理解变化与累积)
核心目标
理解:
- 导数
- 偏导
- 链式法则
- 梯度
- 积分
- 泰勒展开(理解即可)
现实意义
- 反向传播 = 链式法则的大规模应用
- 优化器更新 = 导数
- loss 不降、梯度爆炸 ≈ 数学直觉不足
推荐材料
- 同济《高等数学》第七版
- MIT OCW 18.01
- 3Blue1Brown(可视化辅助)
学习重点
- 极限:知道在解决什么问题即可
- 导数:必须熟
- 多元函数与梯度
- 积分:面积、期望、累积意义
实践方法
每学一个概念,用 Python 可视化:
- 画 sigmoid / tanh / ReLU
- 模拟不同学习率下参数更新
- 观察梯度变化
时间
- 6~8周
3️⃣ 第三阶段:线性代数(AI最关键基础)
如果只能选一门数学重学,我选线性代数。
为什么重要?
大模型几乎全部是矩阵世界:
- embedding = 向量
- attention = 矩阵乘法
- LoRA = 低秩分解
- PCA / SVD = 降维与压缩
- 推理加速 = 矩阵运算优化
重点内容
- 向量空间
- 线性变换
- 矩阵乘法的本质
- 秩与基
- 特征值特征向量
- 正交投影
- SVD
不要沉迷行列式计算。
推荐材料
- Gilbert Strang《Introduction to Linear Algebra》
- MIT 18.06
- 同济线代(辅助)
时间
- 与微积分并行
- 约3个月入门
- 后续持续复习
4️⃣ 第四阶段:概率统计(工程落地核心)
AI落地最常见问题:
- 评估不稳
- 样本偏差
- AB实验误判
- 精确率与召回率冲突
本质都是统计问题。
概率论重点
- 随机变量
- 分布
- 期望
- 方差
- 条件概率
- 贝叶斯公式
- 大数定律
- 中心极限定理
统计学重点
- 参数估计
- 置信区间
- 假设检验
- 回归
- 最大似然
- 交叉熵
推荐材料
- 浙大概率论与数理统计
- 《All of Statistics》
- Think Stats
时间
- 2个月打底
- 长期持续使用
5️⃣ 第五阶段:优化方法(深度学习核心)
不学优化,只会“调用模型”。
必须理解
- 梯度下降
- 随机梯度下降
- mini-batch
- momentum
- Adam
- L1/L2 正则化
- 过拟合
- 凸与非凸
工程相关补充
- 学习率调度
- 梯度裁剪
- 混合精度训练
- loss scaling
推荐学习路径
- 吴恩达机器学习
- 李沐《动手学深度学习》
- Boyd《Convex Optimization》(进阶)
强制实践
从零实现:
- 线性回归
- 逻辑回归
- 两层神经网络
- 手写反向传播
不要一上来就跑 Transformer。
6️⃣ 离散数学 & 数值计算(工程补强)
离散数学
适合:后端 / 架构 / 系统 / 算法平台
重点:
- 集合
- 逻辑
- 图论
- 组合计数
- 递归
- 时间复杂度
推荐:Rosen《离散数学及其应用》
数值计算
与大模型推理成本密切相关:
- 浮点误差
- 条件数
- 稳定性
- FP16 / BF16 / INT8 / FP8
- 量化
- 并行加速
工程师不必成为专家,但必须理解基本概念。
三、学习方法
✅ 1. 少看视频,多动笔
每章做 20~30 道基础题。
数学必须输出。
✅ 2. 每个概念都写代码验证
例如:
- 导数 → 画切线
- 梯度下降 → 自写参数更新
- PCA → numpy 实现
- 概率分布 → 采样绘图
IT从业者的优势:可以立刻验证数学。
✅ 3. 建立“概念卡片”
记录真正卡住的问题,例如:
- 为什么 softmax 接交叉熵?
- 为什么协方差矩阵半正定?
- 为什么 SVD 能降维?
- 为什么学习率大会震荡?
三个月后,这些笔记价值远超收藏夹。
四、完整六个月时间表
| 时间 | 内容 | 目标 |
|---|---|---|
| 第1个月 | 高中函数、数列、向量、解析几何、概率 | 恢复数学语言 |
| 第2-3个月 | 微积分 + 线代 | 能理解梯度与矩阵 |
| 第4个月 | 概率统计 + ML基础 | 会线性回归、逻辑回归、PCA |
| 第5个月 | 优化 + 深度学习基础 | 手写反向传播 |
| 第6个月 | Transformer / Attention / RAG / LoRA | 能读经典论文 |
建议重点论文:
- Attention Is All You Need
- BERT
- GPT 系列综述
- LoRA
- RAG 相关经典论文
五、最终目标
六个月后:
- 不是数学专家
- 但能理解模型与系统
- 不再是纯“调包工程师”
如果未来做研究,再补:
- 信息论
- 统计学习理论
- 矩阵分析
- 测度概率
- 随机过程
如果只是做工程落地:
不要一开始就陷入过深理论。
总结路线
从高中数学开始 → 函数 → 微积分 → 线性代数 → 概率统计 → 优化 → 离散与数值计算
配合代码 + 实战项目
半年即可产生明显变化。