Edit: 第一章：模拟的代价

编辑文章

标题 *

URL 别名 *

内容 * (支持 Markdown 格式)

第一卷：漫长的黑夜与微光：从太古宙到元古宙

1、机器学习的缘起

人工智能最核心的目标是，让机器展现出类似人类的智能。从荷马史诗里的塔罗斯，到古希腊的潘多拉，或是中国的偃师造人，都是对人工智能最原始的想象。真正推动人工智能从想象到现实生活的，是计算机的出现。在计算机出现之后，人们开始真正思考如何实现人工智能。最初的实现范式是依靠演绎法，这也是传统的编程时代的做法。人类专家总结出各种各样的规则，这些规则由程序员来写成代码，由计算机来进行执行。在图灵机的理论支撑下，程序员们认识到只要步骤定义得够细，机器可以解决任何可被计算的问题。那剩下的，就是努力工作，把这个世界上所有可计算的问题都编好程序就可以了。

但是，复杂世界的复杂之处在于，任何企图削减复杂度的行为都可能引入新的复杂度。所以在程序员们的努力下，这个世界需要被编程的可计算问题越来越多了。此时，还是图灵提出了正确的问题：“机器能思考吗？”他的用意是，既然我们人类程序员无法把整个世界编程解决掉，如果让机器来呢？即使它们做不到，是不是也不用那么辛苦呀？这个问题点醒了整个行业，如果让机器学会学习，那不就省大事了？但是机器能学会学习吗？人们似乎并不敢想象。

1952年，IBM 的科学家 Arthur Samuel 写了一个下西洋跳棋 (Checkers) 的程序。他让程序自己和自己下几千盘棋，记住哪些局面容易赢，哪些容易输。这个最早期的人类和机器的智力竞技比赛，最终以机器赢了州冠军，输给世界冠军的结局结束了。但是在这个过程中，充分证明了机器是可以进行学习的，所以Samuel给机器学习下了一个明确的定义：“在没有明确编程的情况下，赋予计算机学习能力”。

从那时开始，机器学习便成为了计算机领域的一个圣杯，被摆在了计算殿堂的顶端.不仅仅是计算机科学家，众多数学家，神经生理学家，心理学家都参与到这座圣杯的角逐中。深度学习就是一个参与角逐人数众多的赛道。

2、M-P神经元模型：深度学习的来时路

对于深度学习来讲，1943年是一个特殊的年份。一篇标题为《神经活动中内在思想的逻辑演算》的论文发表了，作者是伊利诺伊大学芝加哥分校沃伦·麦卡洛克和一个当时不到20岁的流浪少年沃尔特·皮茨。他们的故事颇具传奇色彩，沃尔特·皮茨出身贫寒，但才华横溢，好学上进。他并没有正式的学位，在底特律的图书馆完全依靠自学，学会了希腊文、拉丁文和罗素的高等数学，后因生活所迫，辗转到了芝加哥。在大学旁听时，被人引荐给麦卡洛克。麦卡洛克是个性格豪放的理想主义者，他的威士忌酒友们评价他是个有着哲学灵魂的科学家。他当时正沉迷于思考人类如何认知的问题，在朋友在校园里指给他一个经常来蹭课的少年时，短短的接触便让他惊叹于这个少年的逻辑天赋。于是他迅速的做出了一个决定，邀请无家可归的皮茨住进了自己家里。

他们两个夜以继日的工作，试图用数学公式推导大脑的思维过程。当时的学术界正处于几个重大发现的交汇点，这给了他们两个丰富的理论基础。从麦卡洛克的专业范围上看，当时的生理学家已经发现神经元的工作方式非常独特，神经元受到刺激后，要么完全“放电”（产生动作电位），要么完全不放电，不存在“放电一半”的情况。所以麦卡洛克敏锐地意识到，这种生物学上的“放电/不放电”状态，完美对应了逻辑学中的 True/False 或者二进制数学中的 1/0。这是将大脑视为“数字计算机”的生物学基础。而皮茨在底特律接触到的罗素与怀特海的理论，试图将所有数学归结为逻辑命题，也在感召着他。再加上当时图灵提出了“图灵机”的概念，证明了只要有简单的规则和足够的时间，机器可以计算任何可计算的问题。一个新的念头出现了：如果神经元可以看作是执行逻辑运算的单元，那么由神经元组成的大脑，在理论上就是一个通用的图灵机。而这个图灵机背后的逻辑单元，或许就是表达大脑运作模式的最好方式。

神经元模型便应运而生。于是他们便大幅的用奥卡姆剃刀剃掉了几乎所有的生物化学细节，将神经元抽象成了一个简单的逻辑门。这个模型机制非常的简单：

输入 (Inputs): 神经元接收来自其他神经元的信号（ x_1, x_2, ...），这些信号是二进制的（0或1）。

权重 (Weights): 每个输入都有一个权重（当时并没有直接提出权重这个概念，早期的M-P模型中权重通常是固定的兴奋性或抑制性，不像现在是连续可变的浮点数）。

求和 (Summation): 神经元将所有输入信号进行累加。

阈值 (Threshold): 如果总和超过了某个预设的阈值（ \theta ），神经元就会“开火”（输出1），否则保持静默（输出0）。

这篇论文发表了，辗转到了冯诺伊曼手中，他在设计现代计算机架构时，使用了 M-P 神经元的概念来比喻计算机的组件。它也直接打破了当时心理学和神经学之间的隔阂，连接主义据此而生。控制论之父维纳，当时正在致力于研究“动物和机器中的控制与通信”，也正是M-P 模型给了他最想要的数学证据。维纳也因此和这两位一起组成了控制论的铁三角组合，甚至维纳还计划邀请他们两位去MIT建立一个超级研究团队。但造化总是喜欢捉弄人，他们不仅没有成功的合作，反而引发了一起“科学史上最糟糕的决裂”，这个事件直接导致了皮茨这个少年天才的陨落。

麦卡洛克和皮茨的这对组合，在皮茨烧毁了自己尚未发表的关于三维神经网络的论文之后开始退场。他们为神经网络学界留下的最后一个重要遗产是一项关于青蛙的研究，而这项研究正是卷积神经网络的生物学伏笔。

这应该就是神经网络的创世纪，从M-P神经元模型开始。

充满悲剧色彩的天才-沃尔特·皮茨

3、感知机的出现

回顾一下M-P模型，它的公式大概是这样的： $$y = f(\sum w_i x_i - \theta)$$ 。

如果你想要使用这个公式搭建的网络来识别“猫”，你需要作为设计师，上帝视角般地手动计算并设定好每一个权重 (w) 和阈值 (\theta)。一旦设定好，它们就固定死了。所以，对于复杂的现实模拟，M-P模型并不实用，需要进行改进。这个改进的推进，却是来自于一个心理学家。

罗森布拉特是个康奈尔航空实验室的心理学家。这位帅哥是个充满激情的人，开跑车，弹钢琴，还在自家后院建了个天文台。他从加拿大心理学家赫布的书中，找到了M-P模型的改进方式。赫布启发他的最重要的一句话是："Cells that fire together, wire together."这句被称为赫布学习法则的生物学原理，被罗森布拉特引入了M-P模型：权重 (w) 不应该是固定的，而应该根据“误差”动态调整。

他据此设计了一套误差修正算法，并为此真的造了一台机器：Mark I Perceptron。这台被称为感知机的机器，其核心原理就是我们在现世耳熟能详的“监督学习”。如下图所示，Mark I 并不是运行在通用计算机上的程序，而是一台充满电位器和电动机的巨型模拟计算机，利用电动机驱动电位器旋转来物理调整“权重”。

感知机改善了M-P模型，让静态的逻辑变成了动态的学习。这是他最大的价值，但是他也忽略了一个致命的缺陷，这个缺陷甚至让整个连接主义陷入了数十年的低谷。这个缺陷就是：

线性可分性 ： 单层感知机只能像切蛋糕一样，画一条直线把两类东西分开。如果数据像异或问题 (XOR) 那样（两个角是1，另外两个角是0），一条直线根本切不开，感知机就会永远无法收敛。

这个说法不那么容易理解，让我们换种方式来理解。当我们的桌子上放了一张纸，纸上画了一些黑色或者白色的点。线性可分的意思就是，你能不能只画一条直线（就像用刀切蛋糕一样），就把所有的黑点和白点完美地分开？如果可以，那么这就叫做线性可分，如果不可以，那就叫线性不可分。罗森布拉特所设计的这个单层感知机的数学本质就是一条直线。它只能画直线。在逻辑上，这个感知机无法处理异或逻辑。而提出这个质疑的人，正是罗森布拉特的高中校友，也是在人工智能历史上会留下自己名字的明斯基。

提到明斯基（Marvin Minsky），人们往往只记得他是那个终结了感知机黄金时代的“冷面判官”，但如果剥开历史的厚重外壳，你会发现一个更具魅力的形象。

明斯基（Marvin Minsky）

明斯基绝非一个枯燥的计算机器，他是一位真正的通才，一个在哈佛和普林斯顿浸淫了数十年精英教育的智者。他出身于一个犹太知识分子家庭，父亲是眼科医生，母亲是社会活动家。他不仅在数学和计算机领域有着令人望而尘世的造诣，更是一位极具天赋的钢琴家。他曾师从现代作曲大师伦纳德·伯恩斯坦，在波士顿交响乐大厅即兴演奏赋格曲。这种对严谨结构和完美逻辑的近乎痴迷的追求，深刻地植根于他的骨髓。

对他而言，科学是一场追求绝对清晰的征途。他眼中理想的人工智能，应该像巴赫的乐谱一样，每一行代码、每一个符号都代表着一种明确的含义，可以通过严密的逻辑进行推导和追溯。

因此，当他看到罗森布拉特的感知机时，他感受到的不仅是技术上的简陋，更是一种美学上的亵渎。他看到的不是一个“会学习的机器”，而是一个巨大的“黑盒”——你往里丢数据，它吐出结果，却没有人能解释它为什么是对的，也没有人能保证它下次不会出错。

当时，学术界正处于一场激烈的“范式战争”中。纽厄尔（Allen Newell）后来曾精辟地总结过当时的分歧，这主要体现在逻辑路线（符号主义）与心理/生理路线（连接主义）的根本对立上。

符号主义以明斯基、纽厄尔为首，这一派系认为智能的本质是符号运算和逻辑推理。他们主张“从上至下”（Top-down）地模拟智能，即先总结人类有意识的逻辑规则，再将其转化为物理符号系统进行搜索和计算。在他们看来，研究智能应该关注高层的知识表示，而不是底层的神经元放电。

以罗森布拉特为代表的连接主义则坚持“从下至上”（Bottom-up）的路径。他们认为智能源于底层生理结构的自组织，机器应该像生物一样，通过无意识的感官经验和误差修正来不断进化，而非死记硬背规则。

明斯基敏锐地指出，感知机基于局部的简单计算，无法处理需要全局信息的问题，前面我们提到的异或问题也是软肋之一。他担心这种在简单任务上的“繁荣假象”会误导整个科研方向。当时罗森布拉特凭借感知机获得了军方的大量资助，并向媒体描绘了极其宏大的愿景。明斯基担心这种过于激进且缺乏理论根基的宣传会透支公众对人工智能的信任。为了保护他认为“更正确”的符号逻辑路径，他必须证明感知机的局限性。

这种路线之争在 1969 年明斯基出版《感知机》一书时达到了顶点。该书通过数学证明了单层感知机无法解决异或（XOR）问题，这在当时的学术氛围下，无异于给连接主义宣判了死刑。

当时的明斯基下手毫不留情，也没有给罗森布拉特留下任何的余地。其实明斯基当时非常清楚，只要增加单层感知机为多层，这个线性可分问题就可以解决。但是罗森布拉特的训练法则是基于单层构建的，有了多层之后，这最后出现的误差无法正确的反馈给出现问题的那一层神经元。这个在当时无解的数学难题，让罗森布拉特露出了致命的破绽。

明斯基对这个漏洞的重击，直接导致了美国军方切断了给罗森布拉特和所有投向神经网络的研究资金。这标志着神经网络的“太古宙”在一场关于逻辑与理性的风暴中戛然而止。这不仅仅是一场学术争论的胜负，更是人类在通往人工智能道路上支付的第一笔沉重的“模拟的代价”。

当时的人们试图模拟大脑，却发现这种模拟是如此粗糙，以至于在严密的逻辑推演面前显得支离破碎。明斯基所捍卫的“符号主义”，本质上是人类对确定性的渴求——我们希望机器的每一个决策都如巴赫的赋格曲般精准、可控且清晰；而罗森布拉特所代表的“连接主义”，则是对混沌进化的投机。在那个算力匮乏、算法稚嫩的年代，这种对生命复杂性的粗糙“模拟”，其代价便是长达二十年的放逐与沉寂。

神经网络从此步入了漫长的黑夜。

然而，正如地球历史上的太古宙虽然荒凉，却在火与水的交织中孕育了生命最原始的遗传密码。在这段看似死寂的“史前史”中，M-P模型的逻辑基石、赫布法则的反馈机制，以及感知机那不甘平庸的误差修正算法，都并未真正消亡。它们像微弱的火星，深埋在冷战的故纸堆与被遗忘的实验室中，静静等待着环境的剧变。

当大气中的“氧气”——计算能力与海量数据——再次充盈时，这些微光将重新汇聚，引领我们告别那片荒芜的太古荒原，跨入一个多细胞生命爆发、架构层出不穷的新纪元：元古宙。

在那里的地层中，我们将见证那些被明斯基判定为“死刑”的神经元，是如何在多层结构的嵌套下，重新焕发出足以颠覆世界的生命力。

配图 (可多选)

选择新图片文件或拖拽到此处

标签