如果重新开始学数学,我会怎么选路线?

如果重新开始学数学,我会怎么选路线?

作者:阿菊
来源:https://www.zhihu.com/question/598963323/answer/2034938624437900405
由苑广山的知乎插件处理


一、核心观点:为AI与工程而学,而不是为“最全”而学

如果目标是 IT、算法、AI大模型方向,数学学习的最优路线不是学得最全,而是:

把函数、线性代数、概率统计、优化方法、数值计算学到能写代码、能读论文、能排查模型问题

很多人学废,不是因为不聪明,而是路线错了:

  • 一会儿高数
  • 一会儿机器学习
  • 一会儿补实变函数
  • 收藏夹几百个视频
  • 笔记只写了三页

在大模型时代更明显:

  • 会调 API 的人越来越多
  • 真正能理解模型不稳定、泛化差、训练崩溃、推理成本高的人更少
  • 数学能力反而更值钱

但注意:

不是所有数学都值钱。工程师需要的是“可落地的数学”。


二、分阶段学习路线


1️⃣ 第一阶段:重新学高中数学(恢复数学语言)

目标

不是刷难题,而是恢复数学语言。

重点模块

  • 函数(最重要)
  • 方程与不等式
  • 数列
  • 三角函数
  • 向量
  • 解析几何
  • 概率统计基础

如果只能选重点:

✅ 优先函数

函数是后面所有内容的入口:

  • 损失函数
  • 排序函数
  • 转化率函数
  • 优化目标函数

很多人看不懂梯度下降,不是不会梯度下降,而是函数概念本身就虚。

学习方式

  • 用普通高中教材(人教A版、北师大版都可以)
  • 配基础练习册
  • 不刷压轴题
  • 每题写完整过程

目标:看到表达式能判断变化趋势、极值、变量关系。

时间安排

  • 2~4周
  • 每天1小时

2️⃣ 第二阶段:微积分(理解变化与累积)

核心目标

理解:

  • 导数
  • 偏导
  • 链式法则
  • 梯度
  • 积分
  • 泰勒展开(理解即可)

现实意义

  • 反向传播 = 链式法则的大规模应用
  • 优化器更新 = 导数
  • loss 不降、梯度爆炸 ≈ 数学直觉不足

推荐材料

  • 同济《高等数学》第七版
  • MIT OCW 18.01
  • 3Blue1Brown(可视化辅助)

学习重点

  • 极限:知道在解决什么问题即可
  • 导数:必须熟
  • 多元函数与梯度
  • 积分:面积、期望、累积意义

实践方法

每学一个概念,用 Python 可视化:

  • 画 sigmoid / tanh / ReLU
  • 模拟不同学习率下参数更新
  • 观察梯度变化

时间

  • 6~8周

3️⃣ 第三阶段:线性代数(AI最关键基础)

如果只能选一门数学重学,我选线性代数。

为什么重要?

大模型几乎全部是矩阵世界:

  • embedding = 向量
  • attention = 矩阵乘法
  • LoRA = 低秩分解
  • PCA / SVD = 降维与压缩
  • 推理加速 = 矩阵运算优化

重点内容

  • 向量空间
  • 线性变换
  • 矩阵乘法的本质
  • 秩与基
  • 特征值特征向量
  • 正交投影
  • SVD

不要沉迷行列式计算。

推荐材料

  • Gilbert Strang《Introduction to Linear Algebra》
  • MIT 18.06
  • 同济线代(辅助)

时间

  • 与微积分并行
  • 约3个月入门
  • 后续持续复习

4️⃣ 第四阶段:概率统计(工程落地核心)

AI落地最常见问题:

  • 评估不稳
  • 样本偏差
  • AB实验误判
  • 精确率与召回率冲突

本质都是统计问题。

概率论重点

  • 随机变量
  • 分布
  • 期望
  • 方差
  • 条件概率
  • 贝叶斯公式
  • 大数定律
  • 中心极限定理

统计学重点

  • 参数估计
  • 置信区间
  • 假设检验
  • 回归
  • 最大似然
  • 交叉熵

推荐材料

  • 浙大概率论与数理统计
  • 《All of Statistics》
  • Think Stats

时间

  • 2个月打底
  • 长期持续使用

5️⃣ 第五阶段:优化方法(深度学习核心)

不学优化,只会“调用模型”。

必须理解

  • 梯度下降
  • 随机梯度下降
  • mini-batch
  • momentum
  • Adam
  • L1/L2 正则化
  • 过拟合
  • 凸与非凸

工程相关补充

  • 学习率调度
  • 梯度裁剪
  • 混合精度训练
  • loss scaling

推荐学习路径

  • 吴恩达机器学习
  • 李沐《动手学深度学习》
  • Boyd《Convex Optimization》(进阶)

强制实践

从零实现:

  • 线性回归
  • 逻辑回归
  • 两层神经网络
  • 手写反向传播

不要一上来就跑 Transformer。


6️⃣ 离散数学 & 数值计算(工程补强)

离散数学

适合:后端 / 架构 / 系统 / 算法平台

重点:

  • 集合
  • 逻辑
  • 图论
  • 组合计数
  • 递归
  • 时间复杂度

推荐:Rosen《离散数学及其应用》

数值计算

与大模型推理成本密切相关:

  • 浮点误差
  • 条件数
  • 稳定性
  • FP16 / BF16 / INT8 / FP8
  • 量化
  • 并行加速

工程师不必成为专家,但必须理解基本概念。


三、学习方法

✅ 1. 少看视频,多动笔

每章做 20~30 道基础题。

数学必须输出。


✅ 2. 每个概念都写代码验证

例如:

  • 导数 → 画切线
  • 梯度下降 → 自写参数更新
  • PCA → numpy 实现
  • 概率分布 → 采样绘图

IT从业者的优势:可以立刻验证数学。


✅ 3. 建立“概念卡片”

记录真正卡住的问题,例如:

  • 为什么 softmax 接交叉熵?
  • 为什么协方差矩阵半正定?
  • 为什么 SVD 能降维?
  • 为什么学习率大会震荡?

三个月后,这些笔记价值远超收藏夹。


四、完整六个月时间表

时间 内容 目标
第1个月 高中函数、数列、向量、解析几何、概率 恢复数学语言
第2-3个月 微积分 + 线代 能理解梯度与矩阵
第4个月 概率统计 + ML基础 会线性回归、逻辑回归、PCA
第5个月 优化 + 深度学习基础 手写反向传播
第6个月 Transformer / Attention / RAG / LoRA 能读经典论文

建议重点论文:

  • Attention Is All You Need
  • BERT
  • GPT 系列综述
  • LoRA
  • RAG 相关经典论文

五、最终目标

六个月后:

  • 不是数学专家
  • 但能理解模型与系统
  • 不再是纯“调包工程师”

如果未来做研究,再补:

  • 信息论
  • 统计学习理论
  • 矩阵分析
  • 测度概率
  • 随机过程

如果只是做工程落地:

不要一开始就陷入过深理论。


总结路线

从高中数学开始 → 函数 → 微积分 → 线性代数 → 概率统计 → 优化 → 离散与数值计算
配合代码 + 实战项目

半年即可产生明显变化。