AlphaGo Zero 为什么能战胜 AlphaGo:背后的哲学原理
一、事实层:Zero 为什么赢了?
1. 训练流程对比
AlphaGo(2016)
人类棋谱(监督学习) → 自我对弈(强化学习) → MCTS
AlphaGo Zero(2017)
随机落子 → 自我对弈(强化学习) → MCTS
结果:
- Zero 89:11 击败 AlphaGo
- 100:0 击败旧版
表面原因:人类棋谱包含“脏数据”。
但关键问题是:这些“脏”究竟脏在哪里?
二、三层核心原因
第一层:人类棋谱是“混合了偏见的知识”
人类棋谱包含:
- 定式偏见(如“起手不下三三”)
- 风格偏好(如“厚势不围地”)
- 审美判断(如“这步不好看”)
AlphaGo 的监督学习本质是:
预测人类下一步
因此它继承的不只是经验,还有偏见。
Zero 只有一个目标:赢棋。
它无需尊重传统或审美,因此能够发现人类三千年未发现的最优策略。
第二层:监督学习的目标函数存在系统性偏差
| 模型 | 第一阶段目标 | 最终目标 |
|---|---|---|
| AlphaGo | 预测人类下一步 | 最大化胜率 |
| Zero | —— | 最大化胜率 |
AlphaGo 先优化“模仿人类”,再优化“赢棋”。
问题在于:
- “模仿人类”是代理目标
- “赢棋”才是真正目标
代理目标与真实目标之间存在结构性偏差。
类比:
从小学错语法的人,成年后能修正,但“口音”仍在。
Zero 没有这个“口音”。
第三层:自我对弈带来“知识的一致性生成”
人类棋谱:
- 异质来源
- 不同风格
- 不同水平
- 内部逻辑可能冲突
Zero 自我对弈:
- 同源生成
- 策略内部自洽
- 无逻辑裂缝
它学习到的是一个一致、封闭、自洽的知识体系。
三、背后的哲学原理
原理一:模仿 ≠ 理解
| 维度 | LLM范式 | AlphaGo Zero范式 |
|---|---|---|
| 目标 | 预测下一个Token | 最大化胜率 |
| 数据 | 人类文本 | 自我对弈 |
| 知识来源 | 模仿 | 发现 |
| 偏见来源 | 人类偏见 | 搜索限制 |
Zero 的胜利提出一个问题:
如果存在“语言Zero”,是否能超越当前LLM?
答案取决于环境结构。
原理二:闭环世界 vs 开环世界
围棋 = 闭环世界
- 规则确定
- 信息完全
- 胜负清晰
- 可无限模拟
因此可以直接优化目标函数。
语言与现实世界 = 开环世界
- 规则不确定
- 信息不完全
- 没有绝对裁判
- 无法无限模拟
在开环世界中:
人类数据不是偏见,而是唯一的锚点。
因此 Zero 模式不能简单推广到通用 AI。
原理三:已有知识可能成为最大障碍
结构同构案例:
- Minsky 对感知机的否定 → 阻碍神经网络发展
- 人类棋谱 → 阻碍超人类策略发现
核心命题:
继承一个范式,也继承它的盲区。
人类棋谱让 AlphaGo 起步更快,但设定了天花板。
Zero 起步更慢,但没有天花板。
四、对当前 AI 的启示
| 问题 | Zero 的启示 | 现实限制 |
|---|---|---|
| LLM 能否不用人类数据? | 理论上可更强 | 语言是开环世界 |
| RLHF / RLAIF 是否 Zero 化? | 从模仿走向优化 | 奖励模型仍基于人类数据 |
| JEPA 是否更接近 Zero? | 不预测 Token | 抽象表征仍需人类定义 |
五、最终收束
AlphaGo Zero 的真正哲学启示不是“抛弃人类数据”。
而是:
当目标函数可以被精确定义且环境可模拟时,
直接优化目标函数,远优于模仿人类行为。
通用 AI 的难点在于:
我们尚不知道如何精确定义“通用智能”的目标函数。
作者:雨轩于听雨轩 🌧️🏠