Edit: 前言：一个数学学渣自不量力的创作之旅

编辑文章

标题 *

URL 别名 *

内容 * (支持 Markdown 格式)

人工智能在近些年，已经成为整个地球村的希望，无论是东方还是西方，几乎所有的国家都将未来发展的方向定在它的身上。随着人工智能的出现，很多原来只是藏在科学的象牙塔中的名词，也变得耳熟能详，妇孺皆知。比如“机器学习”、“神经网络”等名词，统统的都和人工智能划上了等号。

人工智能是目标，其余的是手段

这种概念的模糊化，对于人们日常交流，并没有太多的影响，但是如果是有志于在其领域进行深入的了解，则是一个不小的障碍。即使是从业人员，相信也不是每一个人都对这些概念，以及这些概念背后的技术发展脉络，有着足够的了解。了解这种全局视角，特别是加入了时间线的动态全局视角，是对把握整体趋势和更好的处理细节问题，都是有非常重要的帮助的。

人工智能是门计算科学，和数学有着紧密的联系。数学是一种抽象度很高的思维工具，理解起来并不是非常的容易。所以为了能够让人们更好的理解人工智能，科普作者往往会用比喻的方式来解释一些人工智能上的概念。比喻会通过模糊一些细节的方式，来降低复杂度，这对于帮助理解很有效，但用比喻的结果来推理则会变得很糟糕。比如我们会把大语言模型的预测下一个Token的机制比喻成“文字接龙”。这个比喻非常的精准，能很好的诠释大语言模型的计算原理，但是“文字接龙”却在平时的语境里面有概率性、平庸的意思。接龙的目的就是找到词接下去，所以这些词往往只会随大流，不可能跳出概率分布去创造真正新颖的东西。在这样的理解之下，很多人就会得出这样的结论：“AI 只能处理初级的文案工作，在科学发现、高端策略或艺术创作等需要‘灵光一现’的领域，AI 完全没有尝试的价值。”可真实的情况是，大语言模型的文字接龙，并不是简单的在词库里面寻找词语，而是在一种叫做高维向量空间里面进行的，这些空间里面存储的不是词，而是包含语义和逻辑结构在内的复杂向量。而且预测下一个词，也并非“接龙”二字就可以形容的，这种复杂的计算是可以产生如蛋白质结构预测或新药分子式生成这类的科学发现的。这个误解的来源就是因为“文字接龙”这个比喻太过轻佻。

比喻在科普初期，是一种“贷款”行为，本质上是人类在理解新事物时，向旧概念借用了“语义”，用来帮我们快速理解某个问题。但是这种贷款，要在进入下一个认知阶段的时候及时“还款”，也就是真正要理解其本体，否则在以这个“借”来的语义为基础搭建认知体系，往深处走时，便会遇到认知崩塌的局面，作出可能错误地判断。

个人认为，目前在AI的科普领域，用的比喻太多了，导致人们对AI有着各种各样的误解。社会在依靠这些误解做判断，要么过分乐观形成泡沫，在遇到问题时又会马上过于悲观引发连锁反应。这种信心高速振荡的状态，实非行业之福，并不利于行业的稳固发展。

因此，对于一些人工智能的底层机制和逻辑的深入剖析，是有必要的。

但这也是困难的，理解人工智能除了需要有一定的数学知识之外，因为其正处于迅速发展阶段，知识的更新速度很快，很多红极一时的理论会被迅速的淘汰和弃用，所以单纯对技术细节的跟进往往会让人疲于奔命。所以本文试图寻找一种类似“第一性原理”的方式，从思维的本质出发，尝试从待解决的问题和解决方案的角度入手，先来探究技术背后的需求是什么，再来分析解题时遇到的困难，以及试图还原当时产生解题思路时的当事者是如何“灵光一现”的。

事实证明，这种方式颇为有效。原本极为复杂的技术演进路线，在这种视角下被归拢在了一起，很多技术在本质上的目的都是一致的，只不过在处理细节和手段上略有不同而已，有些技术之间的底层哲学分歧很深，但是在外在表现上却又极为相似。当理解了这些，我们就能更容易判断技术将会向何处去，也更能理解新的技术会给我们的生活带来什么样的改变了。

更重要的是，在沿着路线探索的同时，笔者能更深入的感受到当时那些发明了各种算法的大神当时所遭遇的困境，当克服困境，算法得以发明之时，往往会有一个契机引起思维范式的变化。这种改变思维范式的能力，是大神们的最核心的秘诀。我们能通过这种回溯，得以窥其一二，是件非常幸运的事。

本文会从20世纪40年代开始，回溯在这漫长的80余年的时间里，机器学习从伴随着计算机的诞生而出现，到现在成为整个世界发展的核心引擎的过程中，走过的道路。

本文会寻找，在这条道路上，科学家和工程师们经历的多次思维范式的转折，每次的转折又都有哪些成果和收获。本文会探讨，这些转折对身处这个时代的我们有哪些借鉴和帮助，这些成果和收获又是怎样作为下一个阶段的基础，以及我们该如何基于这些成果预测未来的发展。

而这上面所有的一切想法，都是出自一个非数学专业的普通计算机本科生的脑海里。笔者从小数学并不算好，自从中学之后，便再也没有获得过任何数学类的竞赛奖项了，高考数学也不过一百零几，并不是属于家长和同学眼中的数学大神。大学时，编程水平也不突出，时常会因为弄不清楚冒泡排序的方向而让数据结构考试挂科。毕业后，从事的也并不是纯研发类的工作。甚至很多时候，笔者会认为自己的文科天赋是远远强于理科的。

所以各位完全不要担心，文中有太多高深莫测的数学公式和原理，这是一个数学学渣一段不自量力的创作之旅，笔者会用直白但准确的语言来代替复杂的数学公式，会从需求的角度去理解网络中的每一部分的作用，甚至会从哲学的角度来分析大师们的分歧。总之，这并非一本正襟危坐的学术著作，也尽可能的不采用故弄玄虚的方式对内容进行讲解。但是，笔者也会本着谦虚谨慎的态度进行小心的求证，本文中的所有技术内容均会经过多重的验证，也随时期待各路大神在文后的指正和拍砖。

毕竟我的目的是，让大家知道，人工智能的原理连我这样的都能弄懂，那么大家一定更可以。请大家踩着我的拙见，向着人工智能的真理方向，尽情狂奔吧。能成为大家学习路上的垫脚石，足矣！

配图 (可多选)

选择新图片文件或拖拽到此处

标签