AlphaGo Zero 为什么能战胜 AlphaGo:背后的哲学原理

AlphaGo Zero 为什么能战胜 AlphaGo:背后的哲学原理


一、事实层:Zero 为什么赢了?

1. 训练流程对比

AlphaGo(2016)
人类棋谱(监督学习) → 自我对弈(强化学习) → MCTS

AlphaGo Zero(2017)
随机落子 → 自我对弈(强化学习) → MCTS

结果:

  • Zero 89:11 击败 AlphaGo
  • 100:0 击败旧版

表面原因:人类棋谱包含“脏数据”。
但关键问题是:这些“脏”究竟脏在哪里?


二、三层核心原因

第一层:人类棋谱是“混合了偏见的知识”

人类棋谱包含:

  • 定式偏见(如“起手不下三三”)
  • 风格偏好(如“厚势不围地”)
  • 审美判断(如“这步不好看”)

AlphaGo 的监督学习本质是:

预测人类下一步

因此它继承的不只是经验,还有偏见。

Zero 只有一个目标:赢棋
它无需尊重传统或审美,因此能够发现人类三千年未发现的最优策略。


第二层:监督学习的目标函数存在系统性偏差

模型 第一阶段目标 最终目标
AlphaGo 预测人类下一步 最大化胜率
Zero —— 最大化胜率

AlphaGo 先优化“模仿人类”,再优化“赢棋”。

问题在于:

  • “模仿人类”是代理目标
  • “赢棋”才是真正目标

代理目标与真实目标之间存在结构性偏差。

类比:

从小学错语法的人,成年后能修正,但“口音”仍在。

Zero 没有这个“口音”。


第三层:自我对弈带来“知识的一致性生成”

人类棋谱:

  • 异质来源
  • 不同风格
  • 不同水平
  • 内部逻辑可能冲突

Zero 自我对弈:

  • 同源生成
  • 策略内部自洽
  • 无逻辑裂缝

它学习到的是一个一致、封闭、自洽的知识体系。


三、背后的哲学原理

原理一:模仿 ≠ 理解

维度 LLM范式 AlphaGo Zero范式
目标 预测下一个Token 最大化胜率
数据 人类文本 自我对弈
知识来源 模仿 发现
偏见来源 人类偏见 搜索限制

Zero 的胜利提出一个问题:

如果存在“语言Zero”,是否能超越当前LLM?

答案取决于环境结构。


原理二:闭环世界 vs 开环世界

围棋 = 闭环世界

  • 规则确定
  • 信息完全
  • 胜负清晰
  • 可无限模拟

因此可以直接优化目标函数。

语言与现实世界 = 开环世界

  • 规则不确定
  • 信息不完全
  • 没有绝对裁判
  • 无法无限模拟

在开环世界中:

人类数据不是偏见,而是唯一的锚点。

因此 Zero 模式不能简单推广到通用 AI。


原理三:已有知识可能成为最大障碍

结构同构案例:

  • Minsky 对感知机的否定 → 阻碍神经网络发展
  • 人类棋谱 → 阻碍超人类策略发现

核心命题:

继承一个范式,也继承它的盲区。

人类棋谱让 AlphaGo 起步更快,但设定了天花板。
Zero 起步更慢,但没有天花板。


四、对当前 AI 的启示

问题 Zero 的启示 现实限制
LLM 能否不用人类数据? 理论上可更强 语言是开环世界
RLHF / RLAIF 是否 Zero 化? 从模仿走向优化 奖励模型仍基于人类数据
JEPA 是否更接近 Zero? 不预测 Token 抽象表征仍需人类定义

五、最终收束

AlphaGo Zero 的真正哲学启示不是“抛弃人类数据”。

而是:

当目标函数可以被精确定义且环境可模拟时,
直接优化目标函数,远优于模仿人类行为。

通用 AI 的难点在于:

我们尚不知道如何精确定义“通用智能”的目标函数。


作者:雨轩于听雨轩 🌧️🏠