兰 亭 墨 苑
期货 · 量化 · AI · 终身学习
首页
归档
编辑文章
标题 *
URL 别名 *
内容 *
(支持 Markdown 格式)
第一卷:漫长的黑夜与微光:从太古宙到元古宙 1、多伦多学派的建立 1986年的冬日的一天,卡内基梅隆大学的计算机科学系,辛顿并没有向往常一样去实验室摆弄他的玻尔兹曼机,而是坐在办公桌前,陷入了沉思。桌上摆着一封邀请信,是加拿大高等研究院(CIFAR)向他抛出的橄榄枝,邀请他去探索“探索人类智慧的本质”,并提供一份可观且并未附带任何要求的研究经费。 美国是所有科学家向往的乐土,所以他才会从英国远渡重洋,辗转多地来到这里。但是这几年,形势似乎有所变化。里根总统正在大力推行他的“星球大战计划”,AI是其中非常重要的一环。全美高校几乎所有关于AI的经费,都来自于DARPA这个隶属于美国国防部的高级研究计划局。他并不喜欢自己的研究被拿来制作那些用来伤害同类的武器,爱因斯坦晚年的痛苦让他心有余悸。但离开这个他已经习惯并慢慢喜欢的地方,也让他感到踌躇。他时常会想起,他第一次踏上这片大陆的时刻。 那是1978年的深秋,圣地亚哥的阳光像金色的蜂蜜一样流淌在悬崖和海滩上,对于刚从英国阴冷多雨的爱丁堡逃出来的辛顿来说,这光线简直刺眼得让人眩晕。 那时的辛顿,看上去就像一只受惊的鹤。他瘦削、背微驼,说着一口极快的、带有防备色彩的英式英语。他怀里揣着几篇被主流学术界视为“废纸”的手稿,脑子里装着关于大脑如何运作的疯狂猜想,但他不敢轻易示人。在英国,当他试图谈论神经网络时,收获的总是礼貌的嘲讽或冰冷的沉默。他习惯了被视为“搞伪科学的炼金术士”,这次来到加州大学圣地亚哥分校(UCSD),他告诉自己:小心一点,杰弗里,别让他们觉得你是个疯子。 他敲响了那个传说中的办公室门。门开了,大卫·鲁梅尔哈特(David Rumelhart)站在那里。 大卫·鲁梅尔哈特(David Rumelhart) 这是辛顿见过的最不像教授的教授。鲁梅尔哈特穿着宽松的T恤,踩着凉鞋,脸上挂着加州人特有的那种毫无防备的微笑。他不像那些正襟危坐的英国老学究,他看起来更像是一个周末会在车库里修哈雷摩托车的邻家大哥。 “你就是那个来自爱丁堡的杰弗里?”鲁梅尔哈特的声音低沉而温和。 辛顿紧张地开始了他的“演讲”。因为害怕被打断,他的语速快得像机关枪。他语无伦次地讲着分布表征、讲着大脑不可能是符号逻辑的堆砌、讲着那些在当时听起来离经叛道的概念。他一直盯着鲁梅尔哈特的眼睛,等待着那个熟悉的、质疑的眼神——那个意味着“这孩子没救了”的眼神。 但是,那个眼神没有出现。 鲁梅尔哈特只是安静地听着,偶尔点点头,那双深邃的眼睛里没有任何评判,只有一种深不见底的好奇。当辛顿终于因为缺氧而停下来时,鲁梅尔哈特靠在椅背上,说了一句彻底改变辛顿命运的话: “这听起来很有道理。我们为什么不试试看能不能算出来呢?” 那一刻,辛顿感觉自己身后那扇紧闭了多年的大门,被轻轻推开了。他在这个陌生的国度,在这个充满阳光的房间里,第一次找到了同类。接下来的几年,成了辛顿记忆中“金色的时光”。虽然由于经费和学科边缘化的问题,他们的很多讨论确实是在类似地下室并没有窗户的研讨室里进行的,但在辛顿心里,那里的光芒比外面的加州阳光还要耀眼。 PDP 小组成立的契机,或许可以追溯到 1981 年某个令人沮丧的下午。 辛顿手里攥着一封来自主流认知科学期刊的拒稿信,气急败坏地冲进了鲁梅尔哈特的办公室。那张纸几乎被他揉烂了。信里的措辞礼貌而傲慢,大意是:“关于神经网络的研究不仅在计算上不可行,而且明斯基教授在十年前就已经从数学上判了它死刑。请不要再浪费版面讨论这种‘类似炼金术’的伪科学。” “他们根本不看内容!”辛顿愤怒地把信拍在桌子上,那股英国人的绅士劲儿全没了,只剩下满脸的通红,“在大洋彼岸的英国,他们觉得我是疯子;跑到了美国,他们觉得我是个不懂数学的心理学家。大卫,我们是不是真的在一个死胡同里撞墙?” 正如前文所述,罗森布拉特败于明斯基的阴影,依然笼罩在神经网络之上。那本《感知机》像一块巨大的墓碑,压在所有神经网络研究者的头顶。任何想申请经费的人,只要提到“神经”两个字,档案就会被扔进垃圾桶。 “我们需要换个名字,杰弗里” 鲁梅尔哈特坐在那把旧转椅上,捡起那封信看了看,表情依然平静得像是在看一份天气预报。 “杰弗里,问题不在于你的数学,也不在于你的模型。”鲁梅尔哈特放下信,十指交叉,缓缓说道,“问题在于我们是散兵游勇。只要我们是一个个孤独的怪人,他们就可以轻易地把我们像苍蝇一样拍死。” 他站起身,走到窗前,看着加州校园里那些拥有巨额经费的“符号主义 AI”实验室大楼,转过身对辛顿说:“我们需要一支军队。或者至少,我们需要一个帮派。” “但是谁会加入我们?”辛顿苦笑着,“连研究生都不敢选这个方向,怕找不到工作。” “有很多像你一样的流亡者。”鲁梅尔哈特眼里闪过一丝狡黠的光,“有些人在搞物理,有些人在搞语言学,有些在搞神经科学。他们都在被主流排挤。我们要把这些‘失败者’召集起来。” 接着,鲁梅尔哈特提出了那个后来载入史册的策略——改名。 “我们不能再大张旗鼓地叫‘神经网络’了,这个词已经被明斯基搞臭了。”鲁梅尔哈特像个老练的政治家一样分析道,“我们要起一个听起来很枯燥、很技术流、很像计算机科学的名字,一个让那些审查经费的官僚听不懂但觉得很厉害的名字。” 辛顿愣了一下:“比如?” “并行分布式处理(Parallel Distributed Processing)。”鲁梅尔哈特一字一顿地说,“简称 PDP。” 辛顿反复咀嚼着这个词,突然笑了。这个词听起来既冷硬又现代,完全掩盖了他们试图模拟生物大脑的疯狂野心。这是完美的伪装。 就这样,PDP 小组正式在 UCSD 成立了。 最初的聚会并不是在宽敞明亮的会议室,而是在鲁梅尔哈特那一间稍显拥挤的办公室里,或者是某个借来的研讨室。气氛完全不像正规的学术会议,反而像是一场地下革命党的秘密集会。 来的人五花八门:有像埃尔曼(Jeffrey Elman)这样对乔姆斯基的语言霸权感到不满的语言学家,有对大脑不仅是“符号计算机”感兴趣的生物学家,当然还有那个充满电量的辛顿。 每一次聚会都是一场宣泄。大家分享着被主流刊物拒稿的“光荣事迹”,吐槽着符号主义 AI 的僵化。但在吐槽之后,鲁梅尔哈特总是能把话题拉回到那个最核心、最艰难的问题上: “如果不靠符号规则,大脑到底是怎么思考的?” 在这里,辛顿感到了前所未有的安全感。他那跳跃的、有时候甚至显得荒谬的想法,不会遭到嘲笑。相反,大家会像对待珍宝一样接过他的想法,埃尔曼会从语言学的角度补充,鲁梅尔哈特会从心理学的架构去完善。 在这群学术弃儿中间,辛顿意识到,他不再是那个孤独的炼金术士了。 想到这里,辛顿的眼角似乎有些湿润了。UCSD的那段时间,是他生命中最美好的一段回忆。他的指尖揉搓着信笺,信笺有着细亚麻纹材质,摸起来能感觉到微小的、规律的交叉织物起伏,就好像当时卡内基梅隆大学(CMU)给他提供的那份正式教职的Offer一样。他不禁又回忆起,那一个酒吧里的夏夜。 1982年的初夏,拉霍亚海边的某个廉价酒吧里,PDP小组的几个核心成员正围坐在一起。桌上摆着几瓶喝了一半的啤酒,但今天的气氛有点诡异。 辛顿坐在中央,手里捏着一个信封,指关节因为用力而发白。那是来自卡内基梅隆大学(CMU)的正式聘书。 在当时,CMU 是计算机科学的“麦加圣地”,是符号主义AI的大本营,是那些信奉“逻辑与规则”的人统治的帝国。而辛顿,一个搞神经网络的“异教徒”,现在却被邀请进入这个帝国的核心,担任计算机科学系的助理教授。 辛顿没有显得狂喜,相反,他看起来像是一个刚刚偷了皇冠的小贼,既兴奋又害怕被当场抓获。 “大卫,他们搞错了。我觉得这肯定是个行政失误。”辛顿吞了一口啤酒,声音因为紧张而有些干涩,他转头看向身边的鲁梅尔哈特,“大卫,你看清楚了吗?那是计算机科学系!他们让我去教计算机科学!” 辛顿的焦虑几乎要从毛孔里溢出来,他开始语无伦次地数落自己的“罪状”: “我是个学心理学的!我的本科是实验心理学,我的博士是在爱丁堡那个搞哲学的AI系拿的。天哪,大卫,我连怎么写一个像样的编译器都不知道!如果他们让我去教‘操作系统’或者‘数据结构’,我在第一节课就会被学生轰下来的。我是个冒牌货,我是个彻头彻尾的骗子!” 辛顿深深地陷在对自己能力的怀疑中。他觉得自己在用一种生物学的直觉去忽悠那帮搞硬核工程的人,而现在,他要露馅了。周围的埃尔曼和其他成员都笑了起来,但那是善意的笑。 鲁梅尔哈特依旧是那个定海神针。他拿起酒瓶,轻轻碰了碰辛顿面前的杯子,发出清脆的响声。 “杰弗里,听着。”鲁梅尔哈特收起了笑容,眼神变得严肃而锐利,“他们雇你,不是因为你会写编译器。会写编译器的人满大街都是。他们雇你,是因为他们也开始害怕了。” “害怕什么?”辛顿愣住了。 “害怕他们那套‘符号逻辑’真的走进了死胡同。”鲁梅尔哈特像个战略家一样分析道,“CMU那些老家伙虽然固执,但他们不傻。他们闻到了风向的变化。他们把你招进去,是因为你手里有他们看不懂但又觉得危险的东西——那个关于大脑如何真正运作的秘密。” 鲁梅尔哈特身体前倾,盯着辛顿的眼睛: “你不是去那里教他们怎么写代码的。你是去做特洛伊木马的。” “特洛伊木马?” “对。你带着我们的理论,带着PDP的思想,潜入到符号主义最坚固的堡垒里去。你在那里拿终身教职,你在那里招学生。你要在他们的眼皮底下,培养出第一批真正懂神经网络的计算机科学家。” 鲁梅尔哈特的话像一道闪电,击穿了辛顿的恐惧。 辛顿低下头,重新看着手里的Offer。那种心虚并没有完全消失,但他突然意识到这份Offer背后的重量。这是他一直在等待的机会——不再是寄人篱下的访问学者,不再是拿着短期合同的临时工。在CMU,他将拥有自己的实验室,有权支配经费,有资格去保护那些和他一样疯狂的学生。 但他必须离开这里了。离开这个温暖的地下室,离开这群无条件支持他的战友,独自去面对外面那个充满敌意的世界。 “如果我去了那里,被他们发现我真的不懂计算机科学怎么办?”辛顿最后一次弱弱地问,嘴角却已经带上了一丝他标志性的、顽皮的笑意。 “那你就装作你懂。”鲁梅尔哈特大笑着拍了拍他的背,“或者,你就重新定义什么是计算机科学。” 那天晚上,辛顿喝了很多酒。他看着加州的落日,心中既有对即将离别的感伤,更有一种视死如归的豪情。他决定了,他要去宾夕法尼亚,去那个钢铁城市,去那些信奉逻辑符号的人群中,插上神经网络的旗帜。 “对呀?我怎么没想到问问他的意见?”辛顿拿起了话筒,拨通了鲁梅尔哈特的电话。 电话接通了。 “还没睡吗,杰弗里?”听筒里传来鲁梅尔哈特那熟悉的声音,背景里似乎还有加州海浪的隐约声响,或者是电视里棒球赛的杂音。那边的世界听起来是那么松弛。 “大卫,我拿到了加拿大的Offer。”辛顿的声音有些发颤,他习惯性地在狭窄的办公室里来回踱步,“CIFAR,他们愿意资助我。没有军方背景,不需要向五角大楼汇报,只想让我搞清楚大脑是怎么回事。” “这是个完美的机会,不是吗?”鲁梅尔哈特的声音依旧波澜不惊。 “可是,这就意味着我要离开美国了。甚至……意味着我要离开你们了。”辛顿停下脚步,看着桌上那本他们合作的两卷关于PDP的著作,后来被戏称红宝书的《并行分布式处理:认知微结构探索》。“现在的局面是我们一起打下来的。大卫,看着这些书,我总觉得我不配拿这么好的Offer。” 辛顿的语气低沉了下来,触及了那个一直梗在他心中的心结: “你知道吗,外面的人都说我是 BP 算法的推手。但其实那次……那篇《自然》的论文,原本应该是你一个人的功劳。” 辛顿指的是 1986 年那篇改变世界的论文。当时,鲁梅尔哈特最早提出了误差反向传播的核心直觉,而辛顿负责了大量的数学推导和实验。在定稿时,大家都认为辛顿作为最狂热的鼓吹者和完善者,应该做第一作者。但辛顿坚决拒绝了。他甚至像个孩子一样执拗地跟鲁梅尔哈特吵了一架,硬生生把鲁梅尔哈特的名字推到了第一位。 “别傻了,杰弗里。”电话那头的鲁梅尔哈特笑了,那是长辈对晚辈特有的宽容,“当时是你坚持不肯署名第一。你说‘思想的火花是你点的,我只是添了柴’。但我很清楚,如果没有你这几年像疯子一样的坚持,我的那点火花早就熄灭了。” “你是那个让世界不得不听我们说话的人。”鲁梅尔哈特补充道,“所以,别谈什么配不配。这是你应得的。” 辛顿握着电话,眼眶有些发热。在充满功利算计的学术界,只有大卫·鲁梅尔哈特会这样毫无保留地把荣誉推给他,又毫无保留地支持他离开。 “我在想……”辛顿犹豫着说出了心底的恐惧,“如果我去多伦多,建立一个新的实验室,就像是一艘诺亚方舟。但是如果没有你在旁边帮我修补甲板和指路,我怕我的船会散架。” 这是一种极深的依赖。在 UCSD 的那些日子里,每当辛顿因为激进而受到攻击时,都是鲁梅尔哈特挡在他身前。 电话那头沉默了几秒钟。 “杰弗里,你不再需要我帮你修甲板了。”鲁梅尔哈特的声音变得异常温柔,却又充满力量,“PDP 小组已经完成了它的历史使命。我们已经证明了神经网络是活的。” “现在,美国这边的冬天可能会很长。你需要去加拿大,去那片没有硝烟的净土,把火种保存下来。你是那个能穿越暴风雪的人,而我会留在这里,守着我们的老营地。” “只要你还在做研究,我们就不算分开。” 挂断电话后,辛顿久久没有动,但他看着桌上的那封邀请函的眼神变得坚定了起来。 “好吧,大卫。”辛顿对着空气轻声说道,仿佛是对远在加州的老友,也是对即将到来的多伦多岁月承诺,“我会造那艘方舟的。我会把这一代最聪明的怪人都装进去。等到春天回来的时候,我们会让世界大吃一惊。” 第二天,辛顿签署了接受 CIFAR 邀请的文件。多伦多学派这个后来孕育了深度学习革命的圣地,就在这通电话后的决定中诞生了。 2、Hopfield Network和辛顿“移情别恋”的玻尔兹曼机 辛顿是个怀疑论者。他总是对一切事物抱有着怀疑的眼光,包括自己的理论。让辛顿能坚定相信的人,除了好友鲁梅尔哈特之外,远在普林斯顿的约翰·霍普菲尔德(John Joseph Hopfield)功不可没。 约翰·霍普菲尔德(John Joseph Hopfield) 1980 年代初,霍普菲尔德已经是凝聚态物理界的顶级大牛,他在贝尔实验室和普林斯顿工作,研究的是固体材料、电子转移这些非常“硬”的物理问题。到了职业生涯的中期,霍普菲尔德开始对传统的物理学感到一丝厌倦。他觉得物理学太“还原论”了——总是把东西拆成原子、电子去研究。 他开始对生物学感兴趣,特别是大脑。他参加了一些神经科学的会议,结果发现当时的神经科学家都在研究膜电位、离子通道这些和单个神经元个体相关的内容。他对这个研究方向提出了质疑,他认为大脑之所以能思考,肯定不是因为这一个细胞怎么动,而是因为几十亿个细胞在一起怎么动。这就像磁铁,单个原子并不神奇,但亿万个原子排列整齐了,磁性就涌现出来了。 物理学家的跨界思维方式果然奏效,他把一种磁性材料系统和神经网络画上了等号。在物理世界里,原子有“自旋向上”和“自旋向下”两种状态。原子之间会相互影响,有的想同向,有的想反向。整个系统会不断调整,直到能量降到最低,变得稳定。而神经元也有“激发”和“抑制”两种状态。神经元之间的突触连接权重就像原子之间的相互作用力。所以他创造性的提出了这样一种想法:如果把神经元看作原子,把记忆看作是系统的“能量低谷”,那么“回忆”的过程,其实就是“物理系统自然冷却、滚落到能量最低点”的过程! 这就是著名的“联想记忆”机制。你只要给网络一个残缺的信号,比如看到半张脸,系统就会因为能量不平衡而自动演化,最终停在完整的记忆状态,从而想起整张脸。 从数学的角度来诠释他的想法,甚至都不需要发明新的数学公式,他只需要把物理学中著名的伊辛模型(Ising Model)拿过来改一改就可以了。他以此在1982年发表了著名的《神经网络与具有涌现集体计算能力的物理系统》,也在这篇论文中,给神经网络引入了奠基级别的公式能量函数: $$E = -\frac{1}{2}\sum_{i,j} w_{ij} s_i s_j$$ 。 霍普菲尔德这篇论文的伟大之处,不仅在于科学,还在于学术政治上的“降维打击”。他并没有发在计算机期刊上,而是发在了著名的美国国家科学院院刊(PNAS)上。在此之前,神经网络总是受到符号学派的打压,认为其缺乏数学基础。计算机学家对心理学家,在数学上有着相当强的心理优势。但面对物理学家,这种心理优势反而变成了劣势。 以前,神经科学家说“网络会收敛”,明斯基会问“凭什么?你怎么证明它不会乱跳?”没人能从数学上答得上来。但是霍普菲尔德帮助他们完成了回答:“凭热力学定律。只要按照我的规则(对称权重),系统的能量只能下降,不能上升。所以它就像一个球在坑坑洼洼的地面上滚,最终一定会停在某个坑底(Attractor)。” 你可以质疑计算机算法,但你不能质疑物理定律。霍普菲尔德用物理学的确定性,堵住了所有批评者的嘴。从此以后,研究神经网络不再是“炼金术”,而是“计算物理学”。辛顿和鲁梅尔哈特在看到这篇论文时,如获至宝,PDP小组把这篇论文认为是“神谕”,辛顿觉得自己再也不是那个独自挑战巨人的孤独骑士了。 那时的辛顿短暂的回到了英国,在剑桥的MRC 应用心理学部门工作,但他频繁的飞往加州,并不是因为贪恋那里和煦的阳光,而是因为那里有鲁梅尔哈特和 PDP 小组。当辛顿在英国读到了霍普菲尔德发表在 PNAS上的论文时,立刻带着这本来之不易的复印件,像带着藏宝图一样飞过大西洋,冲进了鲁梅尔哈特在 UCSD 的办公室。 此时他们的BP正处在“黎明前的至暗时刻”。他们知道必须要有隐层(Hidden Units)才能解决异或等复杂问题,但他们完全不知道该怎么训练隐层。他们当时正在尝试各种笨办法,比如随机突变,或者简单的赫布规则,但效果都很差。明斯基的诅咒像乌云一样笼罩着他们。他们认为用梯度下降去训练多层网络是死路一条,一定会卡住。当时的两人乃至整个PDP小组都有些灰心。 辛顿拿来的论文,激活了鲁梅尔哈特,霍普菲尔德的概念几乎和他们的想法完全一致,从“梯度下降”、“局部最优”、“全局最优”这些词和那个坑坑洼洼的山谷和不断下落的小球,甚至连比喻用词都是那么的相似。他们仿佛拿到了尚方宝剑,有位大神在告诉他们:“继续努力吧,网络是一定会稳定下来的,只不过你们还没找到方法而已。” 辛顿想尝试一下霍普菲尔德的路线:“物理学能解释记忆,肯定也能解释学习!让我沿着这个方向试试吧?“鲁梅尔哈特看着这个头脑灵活但却没那么稳定的老朋友,他觉得这也许也是一条可以尝试的路。”但我对统计物理没那么熟悉呀?要不,你去和特里探讨一下你的这个想法?“ 特里·塞诺夫斯基(Terry Sejnowski)是辛顿在学术会议上认识的朋友,他师从传奇物理学家约翰·惠勒(John Wheeler),鼎鼎大名的费曼是他的大师兄。但是他后来觉得物理学的大厦已经盖好了,而大脑还是荒原,于是转行搞神经科学。特里和辛顿一拍即合,开始疯狂的沉迷于Hopfield 网络的研究。 在Hopfield 网络中,霍普菲尔德的初心是,想证明“计算即物理”。他认为,计算可以是物理系统的自然演化。他想展示,不需要复杂的中央处理器CPU指挥,仅仅依靠一堆简单的神经元互相拉扯,就像磁铁里的原子,系统就能“涌现”出计算能力。面对非常复杂的优化问题,不再需要计算,只要把问题的约束条件变成能量函数,让网络自己去“滚”出一个能量最低的解,那个解就是最短路径。霍普菲尔德证明了神经网络可以存储数据,但是这个存储是预先设计好的,所以仅凭Hopfield 网络,只能让符号主义者们承认神经网络是个具备“可计算性”和“稳定性”的网络,根本无法证明神经网络是“可训练的”。既然如此,神经网络只不过是用另外一种人无法理解的方式,重新在做和符号一样的事情,都是经过预先设计,来存储某种数据。不同之处在于,符号用的符文,神经网络用的是权重参数。 同为单层网络,Hopfield 网络的本质是:“我能记住全貌,并修复残缺。”这个本领是归纳与还原。罗森布拉特的感知机的本质是:“我能划清界限,并做出判断。”这属于区分与决策。 辛顿同时看出了这两者的缺点,Hopfield 网络太死板了,只能死记硬背归纳还原,不能处理新情况,感知机太肤浅了,只能机械分类进行判断,不懂数据背后真正的含义。“我心目中理想的神经网络,要像 Hopfield 那样拥有‘还原’能力的物理内核,能进行生成式的预训练,再接上像感知机那样的‘判断’能力的层级结构,可以通过反向传播微调。” 辛顿也是从物理学的视角开始下手的。他发现自然界的粒子并不都是聚集在能量最低点不动的。在热力学中,因为有温度的存在,粒子不会死死地待在最低点,而是会在周围抖动。能量越低的地方,粒子出现的概率越大;能量高的地方,粒子出现的概率小,但不是零。这种自然界的抖动,使得粒子不容易被卡死在局部最优的地方,而是总能够顺利的滑到全局最优的点上去。这种抖动的规律,被称为玻尔兹曼分布。 辛顿的想法非常的奇妙:”如果我让那个Hopfield网络抖动起来,而且不再用单层网络,增加带有能理解抽象特征的隐藏层,是不是就能实现训练了?“这就是玻尔兹曼机。 至于这个网络怎么抖动,辛顿用了模拟退火(Simulated Annealing)的思想。刚开始训练时,把“温度”调高,让神经网络剧烈抖动,这样的随机性很大。这样它就能更容易跳出那些糟糕的局部极小值坑。然后慢慢把“温度”降低(退火冷却),网络就会稳定在全局最优解这个能量最低的大坑里了。 此时,辛顿开始觉得玻尔兹曼机仿佛更像生物大脑,他曾经和鲁梅尔哈特多次说过他的心结:“大脑里没有微积分老师,神经元之间也不会传导导数。BP 这玩意儿太‘人工’了,不像真的智能。”但鲁梅尔哈特总是笑笑,不置可否。埃尔曼有时会加入他们的讨论,他听到辛顿的怀疑论话语,总会促狭的戏称辛顿移情别恋了,引得整个PDP小组里面笑声不断。 最终历史还是对辛顿开了一个玩笑,玻尔兹曼机致命的“慢”,终于让他不得不暂时放弃。辛顿在模拟网络的抖动时,采用的随机采样需要进行成千上万次的计算,几十个神经元的网络,在当时的 VAX 计算机上也要跑上好几天。所以辛顿不得不妥协,不采样了,直接用平均值来代替。这时他惊讶的发现,BP算法在数学上其实可以看作是玻尔兹曼机的一种“确定性近似”。想通了这一层,辛顿便全力投入到 BP 的完善和推广中。让人惊奇的是,辛顿一直担心的“明斯基的诅咒”,并没有出现。虽然理论上会出现大量的局部最优,但在高维空间里,BP 竟然很少卡住!它总能歪歪扭扭地找到一条路通向谷底。困扰了 AI 界十几年、让罗森布拉特壮志难酬,让辛顿不得不去搞玻尔兹曼机的那个“局部最优的恐惧”,原来是一只纸老虎! 1986年,那篇《通过反向传播误差学习表征》终于在《Nature》上发表了。神经网络历史上,最重要的机制诞生了。 当时的辛顿和鲁梅尔哈特并不知情,虽然BP幸运的躲过了“明斯基的诅咒”,但很快他们会撞上梯度消失这堵墙壁,而破壁之剑恰恰是当年辛顿花费了大量时间和精力研究的玻尔兹曼机。
配图 (可多选)
选择新图片文件或拖拽到此处
标签
更新文章
删除文章