原来没有什么大型机，alpha go只有四个TPU

2017-12-07 11:18

jun4rui2017-12-07 11:18
DeepMind 的 AI 从 AlphaGo Zero 进化到 AlphaZero

Google AI 子公司 DeepMind 的研究人员本周在预印本网站 arxiv 发表论文（PDF），称他们的 AI 程序从 AlphaGo Zero 进化到了 AlphaZero，通过自对弈在数小时内打败了最出色的国际象棋和日本将棋程序。AlphaGo Zero 是通过强化学习方法训练花了 40 天时间成为超越人类的最强大围棋选手。AlphaZero 应用了类似但更通用的算法，它只掌握最基本的棋类规则，然后通过自对弈反复训练强化学习逐渐进化。它用了 8 小时超越了打败李世石的版本 AlphaGo Lee，用了 4 小时打败了最出色的国际象棋程序 Stockfish，用了 2 小时打败了将棋程序 Elmo。AlphaZero 和 AlphaGo Zero 一样都只使用 4 个 TPU。
jzhl2017-12-07 11:31
只能说明了棋类游戏是一种人脑不擅长的游戏。
choudi2017-12-07 11:31
话说终结者外传里第三方AI原型就是个象棋程序，接个废弃的终结者机体做对人交流界面。
查理王2017-12-07 11:46
进化速度越来越快了
变色龙2017-12-08 12:11
自己弄瞎自己双眼，也是蛮有勇气的
BD2017-12-08 12:14
Machine Learning以来的是大数据和不断进化的算法，对计算能力要求不高，这也就是为啥自动驾驶汽车不需要搭载大型机在上面的原因。
ylara2017-12-08 01:16
训练还是要算力的，推理少
伪2017-12-08 01:21
有生之年能见到某个AI突然学会某种棋类下法吗？
tanglee49502017-12-08 01:24
赶快来消灭人类吧
hourousha2017-12-08 08:20
别小看TPU，之前alphago zero说是用了20来天自我训练超过master，之后leela的作者按照这思路做了一个leela zero，但估算如果用GTX1080Ti的话，得训练1700年……
jzhl2017-12-08 09:07
很简单一个道理，你算数能强过一个廉价计算器吗？硬要将人脑的劣势和计算机比，肯定没得比。
u5712017-12-08 09:40
alphago zero也不是用的一个TPU，而且深度学习优化差距很大，GV100优化之后跑TF框架性能是GP100的几十倍

直接硬跑某种算法，当然只有特定硬件跑的最快
xphi2017-12-08 11:41
既然是arxiv上的预印版，好歹拿来看一眼再发帖，否则就这么胡说的话是真的觉得大家都不懂英语？
双面胶2017-12-08 12:16
要求不高是指什么意思？ 5年前手机能跑还是说需要显卡级计算。不说清楚估计差别大去了。
bebop132017-12-08 02:04
这种描述很不精准啊。
这些棋类当初发明的时候的目的是“人类与自己对决的脑力游戏”，没带着“让ai搞不定的脑力游戏”这种目的。
说不定以此为目的发明一种棋类游戏，将来ai无论如何都赶不上呢。

而且“擅长”这个词有很多层面的解释，一个汽车工程师开车无论如何都比不过舒马赫（伤前），你能说汽车是法拉利的汽车工程师不擅长的领域么。

等ai什么时候能“发明”一种供人类使用的棋类游戏的时候再来说擅长吧。目前还只能是个非常好使的计算器而已。
xphi2017-12-08 02:05
看我引用的原文，现在的深度学习算法训练的时候需要很强的算力，但是使用这个算法并不需要很强的性能。Alpha Zero 训练算法的机器用了5000多个TPU，执行算法的机器只用了4个。
u5712017-12-08 04:53
不错，问题是你不学习怎么来用呢？又不是说学习一次就一劳永逸了，增强学习和强化学习每次进化或者适应新情况都需大量训练算力
xphi2017-12-08 05:55
现在的搞法就是学一次一劳永逸，所以说现在这个深度学习还是只能用于某些特定的方面，使用学出来的模型过程中继续进行学习是一件更难的事情。

不过机器学习有一点优势就是虽然学习成本很高，但是一旦学会后，学成的模型复制成本和使用成本都很低。拿下棋来说，人人都学到柯洁的水平基本上是不可能的，但是机器学习的话，虽然学成一个柯洁水平的很难，但是只要一旦训练好了一个，就可以迅速低成本的复制无数个柯洁，而且每个用起来都很便宜。

本帖最后由 xphi 于 2017-12-8 17:56 通过手机版编辑
双面胶2017-12-08 05:59
是的我明白你说的，但是，一个tpu的算力就很吊了，看怎么比

或者简单说，zero的算力远超民用级gpu。
双面胶2017-12-08 06:18
赞，真心认真
u5712017-12-08 06:25
怎么可能一劳永逸啊，下棋是可以因为规则永远都不会变化，但是你要用到自动驾驶或者医疗行业，哪有固定的规则给你学习？

所以现在新的潮流就是转移和增量学习，根据新情况和数据对原有模型进行训练更新，未来随着AI应用深入对于训练计算需求还会大幅增加
xphi2017-12-08 06:34
是啊，所以我说增量学习更难，