兰 亭 墨 苑
期货 · 量化 · AI · 终身学习
首页
归档
编辑文章
标题 *
URL 别名 *
内容 *
(支持 Markdown 格式)
# 如果重新开始学数学,我会怎么选路线? > 作者:阿菊 > 来源:https://www.zhihu.com/question/598963323/answer/2034938624437900405 > 由苑广山的知乎插件处理 --- ## 一、核心观点:为AI与工程而学,而不是为“最全”而学 如果目标是 **IT、算法、AI大模型方向**,数学学习的最优路线不是学得最全,而是: > 把函数、线性代数、概率统计、优化方法、数值计算学到**能写代码、能读论文、能排查模型问题**。 很多人学废,不是因为不聪明,而是路线错了: - 一会儿高数 - 一会儿机器学习 - 一会儿补实变函数 - 收藏夹几百个视频 - 笔记只写了三页 在大模型时代更明显: - 会调 API 的人越来越多 - 真正能理解模型不稳定、泛化差、训练崩溃、推理成本高的人更少 - 数学能力反而更值钱 但注意: > 不是所有数学都值钱。工程师需要的是“可落地的数学”。 --- # 二、分阶段学习路线 --- ## 1️⃣ 第一阶段:重新学高中数学(恢复数学语言) ### 目标 不是刷难题,而是恢复数学语言。 ### 重点模块 - 函数(最重要) - 方程与不等式 - 数列 - 三角函数 - 向量 - 解析几何 - 概率统计基础 如果只能选重点: > ✅ 优先函数 函数是后面所有内容的入口: - 损失函数 - 排序函数 - 转化率函数 - 优化目标函数 很多人看不懂梯度下降,不是不会梯度下降,而是函数概念本身就虚。 ### 学习方式 - 用普通高中教材(人教A版、北师大版都可以) - 配基础练习册 - 不刷压轴题 - 每题写完整过程 > 目标:看到表达式能判断变化趋势、极值、变量关系。 ### 时间安排 - 2~4周 - 每天1小时 --- ## 2️⃣ 第二阶段:微积分(理解变化与累积) ### 核心目标 理解: - 导数 - 偏导 - 链式法则 - 梯度 - 积分 - 泰勒展开(理解即可) ### 现实意义 - 反向传播 = 链式法则的大规模应用 - 优化器更新 = 导数 - loss 不降、梯度爆炸 ≈ 数学直觉不足 ### 推荐材料 - 同济《高等数学》第七版 - MIT OCW 18.01 - 3Blue1Brown(可视化辅助) ### 学习重点 - 极限:知道在解决什么问题即可 - 导数:必须熟 - 多元函数与梯度 - 积分:面积、期望、累积意义 ### 实践方法 每学一个概念,用 Python 可视化: - 画 sigmoid / tanh / ReLU - 模拟不同学习率下参数更新 - 观察梯度变化 ### 时间 - 6~8周 --- ## 3️⃣ 第三阶段:线性代数(AI最关键基础) > 如果只能选一门数学重学,我选线性代数。 ### 为什么重要? 大模型几乎全部是矩阵世界: - embedding = 向量 - attention = 矩阵乘法 - LoRA = 低秩分解 - PCA / SVD = 降维与压缩 - 推理加速 = 矩阵运算优化 ### 重点内容 - 向量空间 - 线性变换 - 矩阵乘法的本质 - 秩与基 - 特征值特征向量 - 正交投影 - SVD 不要沉迷行列式计算。 ### 推荐材料 - Gilbert Strang《Introduction to Linear Algebra》 - MIT 18.06 - 同济线代(辅助) ### 时间 - 与微积分并行 - 约3个月入门 - 后续持续复习 --- ## 4️⃣ 第四阶段:概率统计(工程落地核心) AI落地最常见问题: - 评估不稳 - 样本偏差 - AB实验误判 - 精确率与召回率冲突 本质都是统计问题。 ### 概率论重点 - 随机变量 - 分布 - 期望 - 方差 - 条件概率 - 贝叶斯公式 - 大数定律 - 中心极限定理 ### 统计学重点 - 参数估计 - 置信区间 - 假设检验 - 回归 - 最大似然 - 交叉熵 ### 推荐材料 - 浙大概率论与数理统计 - 《All of Statistics》 - Think Stats ### 时间 - 2个月打底 - 长期持续使用 --- ## 5️⃣ 第五阶段:优化方法(深度学习核心) 不学优化,只会“调用模型”。 ### 必须理解 - 梯度下降 - 随机梯度下降 - mini-batch - momentum - Adam - L1/L2 正则化 - 过拟合 - 凸与非凸 ### 工程相关补充 - 学习率调度 - 梯度裁剪 - 混合精度训练 - loss scaling ### 推荐学习路径 - 吴恩达机器学习 - 李沐《动手学深度学习》 - Boyd《Convex Optimization》(进阶) ### 强制实践 从零实现: - 线性回归 - 逻辑回归 - 两层神经网络 - 手写反向传播 不要一上来就跑 Transformer。 --- ## 6️⃣ 离散数学 & 数值计算(工程补强) ### 离散数学 适合:后端 / 架构 / 系统 / 算法平台 重点: - 集合 - 逻辑 - 图论 - 组合计数 - 递归 - 时间复杂度 推荐:Rosen《离散数学及其应用》 ### 数值计算 与大模型推理成本密切相关: - 浮点误差 - 条件数 - 稳定性 - FP16 / BF16 / INT8 / FP8 - 量化 - 并行加速 工程师不必成为专家,但必须理解基本概念。 --- # 三、学习方法 ## ✅ 1. 少看视频,多动笔 每章做 20~30 道基础题。 数学必须输出。 --- ## ✅ 2. 每个概念都写代码验证 例如: - 导数 → 画切线 - 梯度下降 → 自写参数更新 - PCA → numpy 实现 - 概率分布 → 采样绘图 IT从业者的优势:可以立刻验证数学。 --- ## ✅ 3. 建立“概念卡片” 记录真正卡住的问题,例如: - 为什么 softmax 接交叉熵? - 为什么协方差矩阵半正定? - 为什么 SVD 能降维? - 为什么学习率大会震荡? 三个月后,这些笔记价值远超收藏夹。 --- # 四、完整六个月时间表 | 时间 | 内容 | 目标 | |------|------|------| | 第1个月 | 高中函数、数列、向量、解析几何、概率 | 恢复数学语言 | | 第2-3个月 | 微积分 + 线代 | 能理解梯度与矩阵 | | 第4个月 | 概率统计 + ML基础 | 会线性回归、逻辑回归、PCA | | 第5个月 | 优化 + 深度学习基础 | 手写反向传播 | | 第6个月 | Transformer / Attention / RAG / LoRA | 能读经典论文 | 建议重点论文: - Attention Is All You Need - BERT - GPT 系列综述 - LoRA - RAG 相关经典论文 --- # 五、最终目标 六个月后: - 不是数学专家 - 但能理解模型与系统 - 不再是纯“调包工程师” 如果未来做研究,再补: - 信息论 - 统计学习理论 - 矩阵分析 - 测度概率 - 随机过程 如果只是做工程落地: > 不要一开始就陷入过深理论。 --- # 总结路线 从高中数学开始 → 函数 → 微积分 → 线性代数 → 概率统计 → 优化 → 离散与数值计算 配合代码 + 实战项目 半年即可产生明显变化。
配图 (可多选)
选择新图片文件或拖拽到此处
标签
更新文章
删除文章