Edit: AlphaGo Zero 为什么能战胜 AlphaGo：背后的哲学原理

编辑文章

标题 *

URL 别名 *

内容 * (支持 Markdown 格式)

# AlphaGo Zero 为什么能战胜 AlphaGo：背后的哲学原理

---

## 一、事实层：Zero 为什么赢了？

### 1. 训练流程对比

**AlphaGo（2016）**  
人类棋谱（监督学习） → 自我对弈（强化学习） → MCTS

**AlphaGo Zero（2017）**  
随机落子 → 自我对弈（强化学习） → MCTS

**结果：**  
- Zero 89:11 击败 AlphaGo  
- 100:0 击败旧版

表面原因：人类棋谱包含“脏数据”。  
但关键问题是：这些“脏”究竟脏在哪里？

---

## 二、三层核心原因

### 第一层：人类棋谱是“混合了偏见的知识”

人类棋谱包含：
- 定式偏见（如“起手不下三三”）
- 风格偏好（如“厚势不围地”）
- 审美判断（如“这步不好看”）

AlphaGo 的监督学习本质是：
> 预测人类下一步

因此它继承的不只是经验，还有偏见。

Zero 只有一个目标：**赢棋**。  
它无需尊重传统或审美，因此能够发现人类三千年未发现的最优策略。

---

### 第二层：监督学习的目标函数存在系统性偏差

| 模型 | 第一阶段目标 | 最终目标 |
|------|--------------|----------|
| AlphaGo | 预测人类下一步 | 最大化胜率 |
| Zero | —— | 最大化胜率 |

AlphaGo 先优化“模仿人类”，再优化“赢棋”。

问题在于：
- “模仿人类”是代理目标
- “赢棋”才是真正目标

代理目标与真实目标之间存在结构性偏差。

类比：
> 从小学错语法的人，成年后能修正，但“口音”仍在。

Zero 没有这个“口音”。

---

### 第三层：自我对弈带来“知识的一致性生成”

人类棋谱：
- 异质来源
- 不同风格
- 不同水平
- 内部逻辑可能冲突

Zero 自我对弈：
- 同源生成
- 策略内部自洽
- 无逻辑裂缝

它学习到的是一个一致、封闭、自洽的知识体系。

---

## 三、背后的哲学原理

### 原理一：模仿 ≠ 理解

| 维度 | LLM范式 | AlphaGo Zero范式 |
|------|----------|------------------|
| 目标 | 预测下一个Token | 最大化胜率 |
| 数据 | 人类文本 | 自我对弈 |
| 知识来源 | 模仿 | 发现 |
| 偏见来源 | 人类偏见 | 搜索限制 |

Zero 的胜利提出一个问题：

> 如果存在“语言Zero”，是否能超越当前LLM？

答案取决于环境结构。

---

### 原理二：闭环世界 vs 开环世界

**围棋 = 闭环世界**
- 规则确定
- 信息完全
- 胜负清晰
- 可无限模拟

因此可以直接优化目标函数。

**语言与现实世界 = 开环世界**
- 规则不确定
- 信息不完全
- 没有绝对裁判
- 无法无限模拟

在开环世界中：
> 人类数据不是偏见，而是唯一的锚点。

因此 Zero 模式不能简单推广到通用 AI。

---

### 原理三：已有知识可能成为最大障碍

结构同构案例：

- Minsky 对感知机的否定 → 阻碍神经网络发展
- 人类棋谱 → 阻碍超人类策略发现

核心命题：
> 继承一个范式，也继承它的盲区。

人类棋谱让 AlphaGo 起步更快，但设定了天花板。
Zero 起步更慢，但没有天花板。

---

## 四、对当前 AI 的启示

| 问题 | Zero 的启示 | 现实限制 |
|------|--------------|----------|
| LLM 能否不用人类数据？ | 理论上可更强 | 语言是开环世界 |
| RLHF / RLAIF 是否 Zero 化？ | 从模仿走向优化 | 奖励模型仍基于人类数据 |
| JEPA 是否更接近 Zero？ | 不预测 Token | 抽象表征仍需人类定义 |

---

## 五、最终收束

AlphaGo Zero 的真正哲学启示不是“抛弃人类数据”。

而是：

> 当目标函数可以被精确定义且环境可模拟时，
> 直接优化目标函数，远优于模仿人类行为。

通用 AI 的难点在于：

我们尚不知道如何精确定义“通用智能”的目标函数。

---

*作者：雨轩于听雨轩 🌧️🏠*

配图 (可多选)

选择新图片文件或拖拽到此处

标签