快速看懂AlphaGo的算法

新闻分类

联系我们

地址：北京市海淀区北四环西路9号 ,主营：人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别，OCR识别等及智能识别技术。
电话：13146317170 廖经理
传真：
邮箱：398017534@qq.com

快速看懂AlphaGo的算法

围棋是一个完整信息博弈问题。而完整信息博弈，通常能被简化为寻觅最优值的树搜索问题。它含有 b 的 d 次方个可能分支，在国际象棋中 b≈35，d≈80；而在围棋中 b≈250，d≈150。很显然，关于围棋，用穷举法或简单的寻路算法（heuristics）是行不通的。但有效的办法是存在的：

从战略（policy） P(a|s) 中取样 action，降低搜索广度

经过位置评价降低搜索深度

把战略和值用蒙特卡洛树搜索（MCTS）分离起来。

通常的步骤是：

用一个 13 层的 CNN，直接从人类棋步中锻炼一个监视学习战略网络 Pσ。输入为 48 x 19 x 19 的图像（比如说，它的组成棋子颜色是 3 x 19 x 19），输出是运用 softmax 层预测的全部落子的概率。准确度是 55.7%。

锻炼一个能在运转时快速取样 action 的快速战略 Pπ。这会用一个基于小型形式特征的线性 softmax。准确度是 24.2%，但它计算一次落子只用 2 微秒，而不像 Pσ 需求 3 毫秒。

锻炼一个加强学习战略网络 Pρ ，经过优化博弈结果来进一步提升监视战略网络。这把战略网络向赢棋优化，而不是优化预测准确度。实质上，Pρ 与 Pσ 的构造是一样的。它们的权重运用相同值 ρ=σ 初始化。对弈的两个选手，是当前战略网络 Pρ 和随机（避免过拟合）选择的此前的战略网络迭代。

锻炼一个价值网络（value network）Vθ，来预测强化学习战略网络本人和本人下棋的赢家。该网络的架构和战略网络相似，但多出一个特征平面（当前玩家的颜色），并且输出变成了单一预测（回归，均方差损失）。依据完好棋局来预测对弈结果，很容易招致过拟合。这是由于连续落子位置之间高度相关，只要一子之差。因而，这里运用了强化学习战略网络本人与本人对弈重生成的数据。该数据从包含 3000 万个不同位置的独立棋局中抽取。

把战略网络、价值网络、快速战略和蒙特卡洛树搜索分离起来。一个规范的蒙特卡洛树搜索过程包含四步：选择、扩展、评价、备份。为了让大家更容易了解，我们只粗略讲了讲它如何在模仿当选择状态的局部（如对数学感兴味，请到原始论文中找公式）。

状态分数=价值网络输出+快速运转（fast rollout）的战略结果+监视学习战略网络输出

高状态得分（或者说落子）会被选择。价值网络输出和快速运转战略结果是评价函数，在叶子节点停止评价（留意，为了评价快速运转，需求不断到最后一步）。监视学习战略网络输出是一个当前阶段的 action 概率，充作选取分数的奖励分。该分数会随访问次数而退化，以鼓舞探究。留意强化学习战略网络只被用于辅助，来生成价值网络，并没有直接在蒙特卡洛树搜索中运用。

到这就完毕了，以上就是打败了人类的 AlphaGo 算法！

上一条：人工智能底层平台下一条：基于深度学习的人脸识别