兰 亭 墨 苑
期货 · 量化 · AI · 终身学习
首页
归档
编辑文章
标题 *
URL 别名 *
内容 *
(支持 Markdown 格式)
# AlphaGo Zero 为什么能战胜 AlphaGo:背后的哲学原理 --- ## 一、事实层:Zero 为什么赢了? ### 1. 训练流程对比 **AlphaGo(2016)** 人类棋谱(监督学习) → 自我对弈(强化学习) → MCTS **AlphaGo Zero(2017)** 随机落子 → 自我对弈(强化学习) → MCTS **结果:** - Zero 89:11 击败 AlphaGo - 100:0 击败旧版 表面原因:人类棋谱包含“脏数据”。 但关键问题是:这些“脏”究竟脏在哪里? --- ## 二、三层核心原因 ### 第一层:人类棋谱是“混合了偏见的知识” 人类棋谱包含: - 定式偏见(如“起手不下三三”) - 风格偏好(如“厚势不围地”) - 审美判断(如“这步不好看”) AlphaGo 的监督学习本质是: > 预测人类下一步 因此它继承的不只是经验,还有偏见。 Zero 只有一个目标:**赢棋**。 它无需尊重传统或审美,因此能够发现人类三千年未发现的最优策略。 --- ### 第二层:监督学习的目标函数存在系统性偏差 | 模型 | 第一阶段目标 | 最终目标 | |------|--------------|----------| | AlphaGo | 预测人类下一步 | 最大化胜率 | | Zero | —— | 最大化胜率 | AlphaGo 先优化“模仿人类”,再优化“赢棋”。 问题在于: - “模仿人类”是代理目标 - “赢棋”才是真正目标 代理目标与真实目标之间存在结构性偏差。 类比: > 从小学错语法的人,成年后能修正,但“口音”仍在。 Zero 没有这个“口音”。 --- ### 第三层:自我对弈带来“知识的一致性生成” 人类棋谱: - 异质来源 - 不同风格 - 不同水平 - 内部逻辑可能冲突 Zero 自我对弈: - 同源生成 - 策略内部自洽 - 无逻辑裂缝 它学习到的是一个一致、封闭、自洽的知识体系。 --- ## 三、背后的哲学原理 ### 原理一:模仿 ≠ 理解 | 维度 | LLM范式 | AlphaGo Zero范式 | |------|----------|------------------| | 目标 | 预测下一个Token | 最大化胜率 | | 数据 | 人类文本 | 自我对弈 | | 知识来源 | 模仿 | 发现 | | 偏见来源 | 人类偏见 | 搜索限制 | Zero 的胜利提出一个问题: > 如果存在“语言Zero”,是否能超越当前LLM? 答案取决于环境结构。 --- ### 原理二:闭环世界 vs 开环世界 **围棋 = 闭环世界** - 规则确定 - 信息完全 - 胜负清晰 - 可无限模拟 因此可以直接优化目标函数。 **语言与现实世界 = 开环世界** - 规则不确定 - 信息不完全 - 没有绝对裁判 - 无法无限模拟 在开环世界中: > 人类数据不是偏见,而是唯一的锚点。 因此 Zero 模式不能简单推广到通用 AI。 --- ### 原理三:已有知识可能成为最大障碍 结构同构案例: - Minsky 对感知机的否定 → 阻碍神经网络发展 - 人类棋谱 → 阻碍超人类策略发现 核心命题: > 继承一个范式,也继承它的盲区。 人类棋谱让 AlphaGo 起步更快,但设定了天花板。 Zero 起步更慢,但没有天花板。 --- ## 四、对当前 AI 的启示 | 问题 | Zero 的启示 | 现实限制 | |------|--------------|----------| | LLM 能否不用人类数据? | 理论上可更强 | 语言是开环世界 | | RLHF / RLAIF 是否 Zero 化? | 从模仿走向优化 | 奖励模型仍基于人类数据 | | JEPA 是否更接近 Zero? | 不预测 Token | 抽象表征仍需人类定义 | --- ## 五、最终收束 AlphaGo Zero 的真正哲学启示不是“抛弃人类数据”。 而是: > 当目标函数可以被精确定义且环境可模拟时, > 直接优化目标函数,远优于模仿人类行为。 通用 AI 的难点在于: 我们尚不知道如何精确定义“通用智能”的目标函数。 --- *作者:雨轩于听雨轩 🌧️🏠*
配图 (可多选)
选择新图片文件或拖拽到此处
标签
更新文章
删除文章