AlphaGo Zero 为什么能战胜 AlphaGo：背后的哲学原理

一、事实层：Zero 为什么赢了？

1. 训练流程对比

AlphaGo（2016）
人类棋谱（监督学习） → 自我对弈（强化学习） → MCTS

AlphaGo Zero（2017）
随机落子 → 自我对弈（强化学习） → MCTS

结果：

Zero 89:11 击败 AlphaGo
100:0 击败旧版

表面原因：人类棋谱包含“脏数据”。
但关键问题是：这些“脏”究竟脏在哪里？

二、三层核心原因

第一层：人类棋谱是“混合了偏见的知识”

人类棋谱包含：

定式偏见（如“起手不下三三”）
风格偏好（如“厚势不围地”）
审美判断（如“这步不好看”）

AlphaGo 的监督学习本质是：

预测人类下一步

因此它继承的不只是经验，还有偏见。

Zero 只有一个目标：赢棋。
它无需尊重传统或审美，因此能够发现人类三千年未发现的最优策略。

第二层：监督学习的目标函数存在系统性偏差

模型	第一阶段目标	最终目标
AlphaGo	预测人类下一步	最大化胜率
Zero	——	最大化胜率

AlphaGo 先优化“模仿人类”，再优化“赢棋”。

问题在于：

“模仿人类”是代理目标
“赢棋”才是真正目标

代理目标与真实目标之间存在结构性偏差。

类比：

从小学错语法的人，成年后能修正，但“口音”仍在。

Zero 没有这个“口音”。

第三层：自我对弈带来“知识的一致性生成”

人类棋谱：

异质来源
不同风格
不同水平
内部逻辑可能冲突

Zero 自我对弈：

同源生成
策略内部自洽
无逻辑裂缝

它学习到的是一个一致、封闭、自洽的知识体系。

三、背后的哲学原理

原理一：模仿 ≠ 理解

维度	LLM范式	AlphaGo Zero范式
目标	预测下一个Token	最大化胜率
数据	人类文本	自我对弈
知识来源	模仿	发现
偏见来源	人类偏见	搜索限制

Zero 的胜利提出一个问题：

如果存在“语言Zero”，是否能超越当前LLM？

答案取决于环境结构。

原理二：闭环世界 vs 开环世界

围棋 = 闭环世界

规则确定
信息完全
胜负清晰
可无限模拟

因此可以直接优化目标函数。

语言与现实世界 = 开环世界

规则不确定
信息不完全
没有绝对裁判
无法无限模拟

在开环世界中：

人类数据不是偏见，而是唯一的锚点。

因此 Zero 模式不能简单推广到通用 AI。

原理三：已有知识可能成为最大障碍

结构同构案例：

Minsky 对感知机的否定 → 阻碍神经网络发展
人类棋谱 → 阻碍超人类策略发现

核心命题：

继承一个范式，也继承它的盲区。

人类棋谱让 AlphaGo 起步更快，但设定了天花板。
Zero 起步更慢，但没有天花板。

四、对当前 AI 的启示

问题	Zero 的启示	现实限制
LLM 能否不用人类数据？	理论上可更强	语言是开环世界
RLHF / RLAIF 是否 Zero 化？	从模仿走向优化	奖励模型仍基于人类数据
JEPA 是否更接近 Zero？	不预测 Token	抽象表征仍需人类定义

五、最终收束

AlphaGo Zero 的真正哲学启示不是“抛弃人类数据”。

而是：

当目标函数可以被精确定义且环境可模拟时，
直接优化目标函数，远优于模仿人类行为。

通用 AI 的难点在于：

我们尚不知道如何精确定义“通用智能”的目标函数。

作者：雨轩于听雨轩 🌧️🏠