Edit: 第二章：炼金术士的坚持

编辑文章

标题 *

URL 别名 *

内容 * (支持 Markdown 格式)

第一卷：漫长的黑夜与微光：从太古宙到元古宙

1、MLP：多层感知机

1971 年 7 月 11 日，切萨皮克湾的风似乎比往常更冷冽一些。弗兰克·罗森布拉特，这位曾经向全世界许诺机器能像人类一样思考的狂想者，在他的 50 岁生日这天，驾驶着他的“海文二号”驶向了大海深处，再也没有回来。

在那冰冷的海水吞没他的一瞬间，或许他脑海中闪过的并不是对死亡的恐惧，而是一个困扰了他整整十年的几何死结。在那一刻，随着他一起沉入海底的，不仅仅是一具肉体，还有连接主义流派最后的一口心气。此时的学术界，正如明斯基所预言的那样，正在迅速抛弃这些模拟生物神经的“粗糙玩具”，转而拥抱符号逻辑的精密大厦。罗森布拉特像是一个孤独的堂吉诃德，在与风车的搏斗中力竭而亡，只留下身后一片狼藉的战场和无数未解的方程。

在康奈尔大学的地下室里，罗森布拉特留下了一个纸箱，纸箱里装满了他的手稿，不仅有密密麻麻的电路草图，还有着一叠潦草却充满力量的笔记。那些手绘的神经元不再是单薄的一层，而是像千层饼一样堆叠在一起。罗森布拉特用粗笔重重地圈出了中间的那一层，也就是后来被称为“隐藏层”的结构。这就是罗森布拉特用来反驳明斯基的MLP多层感知机。

在草图的边缘，罗森布拉特用潦草的字迹记录下来当时颇为绝望的心情：

“如果在输入和输出之间加入更多的层，异或问题一定能解……我能感觉到信号在这里应该发生扭曲，应该在这里被重新编码。但我怎么告诉这一层的神经元该怎么改？误差在传递到这里时就断了。就像我在对一群聋子大喊，声音传不到后面去……一定有一个数学上的诀窍，一定有……”

这位被主流学界嘲笑为“骗子”和“吹牛大王”的前辈，其实已经站在了真理的门槛上。罗森布拉特是对的。他的直觉精准得可怕：结构是对的，方向是对的，甚至连那份对“生物必然通过错误来学习”的信仰也是对的。他唯一的悲剧在于，他生在了一个数学工具尚未准备好的时代。他手里握着制造原子弹的图纸，却只有一把石器时代的锤子。此时他距离那个能让神经网络“开口说话”的秘密——BP反向传播，其实只差了一层窗户纸的厚度。但他没能等到捅破它的那一天，就带着无尽的遗憾，将这团未熄的火种遗失在了切萨皮克湾的波涛之中。

让我们用后人的视角来分析一下，阻拦罗森布拉特更进一步的，有三个关键的因素。

第一道封印：生物学隐喻的暴政与数学的死结

罗森布拉特的第一个悲剧，在于他对生物学忠诚的模仿反倒成为了数学上的死刑判决。在那个时代，麦卡洛克-皮茨（M-P）模型太过成功了，它确立了一条不容置疑的铁律：神经元必须像生物神经那样，是一个非黑即白的“开关”。这种硬邦邦的“阶跃函数”，精准地模拟了生物电信号“全或无”的爆发特性，被视为严谨的象征。

然而，正是这种对生物学的极致模仿，关上了微积分的大门。阶跃函数像是一道陡峭的悬崖，在悬崖边缘，导数是无穷大；在平地上，导数是零。当你想告诉多层网络“请往误差更小的方向挪一点”时，微积分两手一摊：要么没路可走（导数为0），要么摔得粉身碎骨（不可导）。当时的数学家明斯基看得很清楚：“你无法用平滑的微积分去训练这种离散的开关。”

直到若干年后，才有年轻人敢于通过“作弊”来打破这个僵局。他们偷偷把那个硬邦邦的开关，换成了软绵绵的 Sigmoid 函数（S型曲线）。这种函数不再追求生物学的绝对仿真，而是追求数学上的圆融——它处处光滑，处处可导。正是这种对生物学教条的背叛，才换来了数学上的通行证。

第二道封印：几何直觉的陷阱与“局部最优”的幽灵

第二道对罗森布拉特的封印其实来自于对明斯基专业能力的信任。作为一个理性的科学家，罗森布拉特仔细的阅读了多遍《感知机》。在这部书中，罗森布拉特能感受到，明斯基作为顶尖数学家的“恐惧”。明斯基用严谨的数学，向罗森布拉特展现出了在数学上的一种绝境。

在低维几何的群山中，地形非常的复杂。如果顺着坡度没有任何地图的情况下往下滑，必然会卡在半山腰的某个小坑里，永远找不到山脚下的深谷。这种情景才是真正对罗森布拉特的想法的致命一击，他所依赖的梯度下降法训练复杂的网络，在几何上的确如同上文的比喻一样，存在会被局部最优解困住，而无法找到全局最优解。

这种绝境的比喻是非常贴切的。罗森布拉特推断，随着网络层数变深，参数变多，地形会变得千沟万壑，掉进陷阱的概率将呈指数级上升。这就像是一个盲人在充满了捕兽夹的森林里行走，每一步都可能是终点。

然而，明斯基带给罗森布拉特的判断，并非那么准确。直到几十年后，高维统计学才迟来的揭示了一个反直觉的真理：在高维空间中，真正的“坑”（局部最优解）其实极少，更多的是“鞍点”（Saddle Points）——那些在一个方向上是坑，在另一个方向上却是滑梯的地方。梯度下降法其实很容易从这些鞍点逃逸。罗森布拉特被明斯基描绘的“迷宫”吓退了，殊不知那其实是一片可以通过的坦途。

第三道封印：计算力的贫瘠与时间的诅咒

如果说前两道封印是思想上的迷雾，那么第三道封印则是物理现实的一盆冷水。1969 年，是 IBM 360 大型机的时代。那时的计算机内存还以 KB 为单位计算，运算速度慢得令人发指。

即使当时罗森布拉特脑海中闪过了反向传播的念头，现实也会无情地嘲弄他。在那种算力下，训练一个仅能解决 XOR 问题的简单多层网络，可能需要机器轰鸣运转数小时甚至数天。由于算力的极度匮乏，没人能通过实验来反驳明斯基。

在无法做实验的情况下，科学家只能迷信纸面上的推导。计算复杂性理论告诉他，这是一个 NP-Hard 问题。他悲观地计算出，要在这个庞大的参数空间里搜索出合适的权重组合，所需要的时间将“超过宇宙的寿命”。这道算力的叹息之墙，让当时所有的努力看起来都像是在用一把勺子试图挖穿喜马拉雅山。在那个缺氧的年代，神经网络的火种注定无法燃烧。

事实上，仅在罗森布拉特去世三年之后，哈佛大学的保罗·沃博斯 (Paul Werbos)，就首次完整地推导出了利用反向传播来训练多层神经网络的数学过程。沃博斯可以用当时的主流计算机IBM System/370，在上面训练一个包含几十个神经元、两三层的小网络。这足以解决像“异或”（XOR）或者简单的函数拟合问题。但是对于明斯基的指数爆炸的预言，反向传播的确在当时的算力下无能为力。

于是，罗森布拉特的遗憾，又静静的等待了12年。直到一位在剑桥大学国王学院攻读实验心理学的年轻人出现，他的名字是杰弗里·辛顿（Geoffrey Hinton）。

2、BP：反向传播

杰弗里·辛顿（Geoffrey Hinton）

如果说科学界有贵族，辛顿毫无疑问属于是含着金汤匙出生的那一类纯血贵族。然而，命运似乎故意给他开了一个巨大的玩笑：他的祖先奠定了符号主义的基石，而他却穷尽一生试图推翻它。

他是拥有逻辑的血脉的，辛顿的高外祖父（曾祖母的父亲）正是乔治·布尔（George Boole）。没错，就是那个发明了“布尔代数”的人。布尔代数中的 0 和 1、真与假，是现代计算机逻辑运算的根基，也是明斯基等符号主义者坚信的“智能的本质”。这一切的概念缘起，都来自于辛顿的祖先。

辛顿的名字中间名是“Everest”，因为他的高外祖母的叔叔是乔治·埃珠穆斯特（George Everest）爵士，世界第一高峰“珠穆朗玛峰”的英文名称就是以他的名字命名的。此外，他的堂姑寒春（Joan Hinton）是一位核物理学家，曾参与曼哈顿计划，后来却成为了中国人民的老朋友，在中国的农场里度过余生。

在这个充满了逻辑学家和精准科学家的家族里，辛顿选择了一条离经叛道的路。当他的祖先用 0 和 1 构建确定性时，他却坚信大脑是模糊的、概率的、模拟的。

辛顿从小就显得纠结和拧巴，他并不期待家人为其建议的那条看起来非常清楚的人生道路。在剑桥他最初攻读物理和化学，但觉得无法解释生命的奥秘；于是转去读建筑学，只坚持了一天；又转去读哲学，试图寻找心智的答案，结果发现那是文字游戏。最终，他在实验心理学中找到了落脚点。因为他想知道：这团湿漉漉的大脑，到底是怎么产生思想的？

博士期间，他来到了爱丁堡大学，这里是当时符号主义的大本营。他的导师希金斯是一位杰出的化学家转型的AI学者，但对神经网络深恶痛绝。每周辛顿去见导师，都会爆发争吵。希金斯认为神经网络是无稽之谈，甚至以此威胁辛顿的学位。辛顿后来回忆说：“我之所以能毕业，完全是因为英国的绅士风度——他不好意思开除一个‘那个家族’（布尔家族）的后代。”那时，神经网络的旗手罗森布拉特已经去世多年，沃博斯的努力在学术圈没有激起任何涟漪，神经网络依然在寒冬中沉睡着。

但这丝毫不影响辛顿对神经网络的痴迷。他对神经网络的笃信，来自对当时主流理论的深深怀疑。当时的理论认为，记忆像是一个个放在文件柜里的文档（符号），这在大脑受到物理损伤时根本解释不通。实验证明切掉一部分大脑并不意味着丢失了一部分具体的记忆，而是整体变得模糊。1971年诺贝尔物理学奖的获得者丹尼斯·伽柏（Dennis Gabor）的全息理论给了辛顿解释这种现象重要的启示。全息理论显示，如果你把一张全息照片撕碎，每一小块碎片依然能通过光线还原出整体的图像，只是模糊了一些。他坚信大脑的记忆也是这样分布式存储的，而不是存在某个具体的神经元里。这种“分布式表征”的思想，让他义无反顾地投向了连接主义的怀抱。

阻挡住罗森布拉特的封印，却并没有拦住这个骨子里面有些离经叛道的年轻人。一上来，他便把原来用来模拟生物学的布尔代数抛在了一边，把0和1的阶跃函数改成了平滑的S曲线，有了这个平滑的坡度，微积分中的链式法则就能派上用场了，链式法则可以把错误的责任精确地分摊给每一个参与的神经元。

1986年，他和鲁梅尔哈特、威廉姆斯发表了论文《通过反向传播误差学习表征》。正是这篇论文，宣告了神经网络的苏醒。

链式法则在论文中得到了淋漓尽致的运用，它让错误信号像流水一样倒着流了回去，所以这种方式被称为反向传播。我们来具体看一下这个算法的机制：

第一步：前向传播 (Forward Pass)：数据从输入层经过隐藏层，一路计算到输出层，给出一个预测值（比如 0.8）。

第二步：计算损失 (Loss)：对比预测值（0.8）和真实值（1.0），算出误差（Loss = 0.2）。

第三步：反向传播 (Backward Pass) ：这是算法的核心。此时需要解答一个问题：“为了减小这 0.2 的误差，每个权重应该怎么改，改多少？实际上没人知道结果，但是可以用试的。这种试法在明斯基时代简直无法想象，这么奢侈的浪费军方的算力，在当时可能是会被当作苏联间谍枪毙的。而尝试的过程中，可以用求偏导的方式来指引方向，找到那个最敏感的权重。在偏导的指导下，我们就能通过小心翼翼的试出来那个正确的对权重调整的方案了。

和保罗·沃博斯的论文不同，辛顿这次直接挑战的是明斯基的权威。由于魔改了阶跃函数，可以利用微积分的能力，辛顿团队有底气专门选择了那些曾经被明斯基宣判“死刑”的各种编码和逻辑问题（如 XOR 问题、编码器问题）进行演示。他用实验无可辩驳地证明：多层网络不仅能训练，而且能完美解决单层感知机无法解决的非线性问题。对权威的“碰瓷”和针对性的“打脸”演示，果然具有吸引流量的效果，这一次BP闹出了动静，真正打破了学术界的坚冰。

这篇论文真正确立了“前向传播算结果，反向传播修权重”的标准范式，证明了多层网络是可以被训练的，且无需指数级的时间搜索。这极大的鼓舞了当时尚在神经网络领域钻研的人们的士气。

但从现实上来看，BP并没有立刻带给他们翻身的机会。学术环境对神经网络依然还是充满了敌意，辛顿不得不像一名潜伏的特工一样小心翼翼的生存着。主流的计算机科学会议（如 IJCAI）几乎拒收他们的论文。为了在学界生存，他和鲁梅尔哈特等人不得不进行“伪装”，极其聪明地发明了一个新词——“并行分布处理” (PDP)，以此来避开已经被严重污名化的“神经网络”这个词。由于无法进入主流视野，他们只能在加州大学圣地亚哥分校（UCSD）等少数几个据点，组织自己的小圈子会议。

当时他们的算力也捉襟见肘，他们没有军方的大型机支持，只能使用 VAX 小型机来进行训练。这台机器的算力甚至不如现在的一块智能手表。在训练数据层面也非常的匮乏，那时没有互联网，他们手中只有几十几百个样本。这种算力和数据的双重贫瘠，使得他们的网络只要稍微深一点，训练速度就慢如蜗牛，且效果不佳。

在技术层面，他们也遇到了新的问题。论文虽然解决了“怎么传误差”的问题，却引发了新的数学灾难。当研究者试图把网络做深超过三层时，发现反向传播失效了，梯度消失了。这成为了继明斯基之后，阻挡深度学习发展的又一道叹息之墙。

梯度为什么会消失？这和BP算法的核心“链式法则”有关系。在梯度计算时，需要这样的公式：

\text{总梯度} = \text{层5导数} \times \text{层4导数} \times \text{层3导数} \times \text{层2导数} \times \dots

当时用来作为引入非线性特征的函数叫做Sigmoid 函数，是一种常用的将任何实数映射到（0，1）区间的方法，而且这个函数的导数最大值只有 0.25（当输入为 0 时）。在边缘区域，导数更是接近 0。所以我们能想象一下，这样的数字在进行连乘操作后，会出现什么样的结果。假设有十层网络，那么计算结果就是：

0.25 \times 0.25 \times 0.25 \dots \approx 0.0000009

这样就会导致误差信号从第 10 层传回到第 1 层时，信号已经微弱到几乎为零。深层的神经元在疯狂学习（因为靠近输出，梯度大），但浅层的神经元（负责提取基础特征）几乎没动静，因为它们收到的整改通知是“请调整 0.000000...1”。在这种情况下，梯度消失出现了。

就在这样的窘境中，辛顿几乎坚持不下去了。但一位法国青年博士的的跨洋投奔，和物理学大牛对神经网络的跨界研究带来的在学术政治上的庇护，让神经网络刚燃起来的微弱火苗，不至于熄灭在寒风中。

在那个理性与逻辑统治一切的年代，辛顿像是一个误入精密化学实验室的中世纪炼金术士。在学术界眼中，辛顿的研究不能叫科学，这叫巫术；这不是智能的未来，这是炼金术士点石成金的痴人说梦。

但这正是辛顿最令人动容的地方，他的固执和离经叛道使他不在乎那些优雅的公式是否能解释一切，他只在乎那口炼金术坩埚里的温度。从剑桥的随机漫步到爱丁堡的师徒决裂，从圣地亚哥的地下聚会到多伦多的寒夜守望，他像守护着最后火种的守夜人，在漫长的寒冬里，忍受着主流学界的冷眼与嘲笑。在那段最黑暗的日子里，为了让这门“伪科学”活下去，他甚至不得不卑微地给自己的信仰换上“并行分布处理”的伪装，只为在学术界求得一张站立的席位。

他之所以坚持，是因为他透过那团混沌的迷雾，看到了逻辑学家们未曾见过的风景：智能或许本来就不是精密钟表的咬合，而是像生命一样，是在无数次试错、调整和反馈中，从混沌中涌现出的秩序。正如真正的炼金术士终其一生寻找的并不是黄金，而是“哲人石”一样；辛顿穷尽半生寻找的也不仅仅是一个能用的模型，而是那个能解释心智如何从物质中诞生的终极答案。

配图 (可多选)

选择新图片文件或拖拽到此处

标签