原来没有什么大型机,alpha go只有四个TPU
- jun4ruiDeepMind 的 AI 从 AlphaGo Zero 进化到 AlphaZero
Google AI 子公司 DeepMind 的研究人员本周在预印本网站 arxiv 发表论文(PDF),称他们的 AI 程序从 AlphaGo Zero 进化到了 AlphaZero,通过自对弈在数小时内打败了最出色的国际象棋和日本将棋程序。AlphaGo Zero 是通过强化学习方法训练花了 40 天时间成为超越人类的最强大围棋选手。AlphaZero 应用了类似但更通用的算法,它只掌握最基本的棋类规则,然后通过自对弈反复训练强化学习逐渐进化。它用了 8 小时超越了打败李世石的版本 AlphaGo Lee,用了 4 小时打败了最出色的国际象棋程序 Stockfish,用了 2 小时打败了将棋程序 Elmo。AlphaZero 和 AlphaGo Zero 一样都只使用 4 个 TPU。 - jzhl只能说明了棋类游戏是一种人脑不擅长的游戏。
- choudi话说终结者外传里第三方AI原型就是个象棋程序,接个废弃的终结者机体做对人交流界面。
- 查理王进化速度越来越快了
- 变色龙自己弄瞎自己双眼,也是蛮有勇气的
- BDMachine Learning以来的是大数据和不断进化的算法,对计算能力要求不高,这也就是为啥自动驾驶汽车不需要搭载大型机在上面的原因。
- ylara训练还是要算力的,推理少
- 伪有生之年能见到某个AI突然学会某种棋类下法吗?
- tanglee4950赶快来消灭人类吧
- hourousha别小看TPU,之前alphago zero说是用了20来天自我训练超过master,之后leela的作者按照这思路做了一个leela zero,但估算如果用GTX1080Ti的话,得训练1700年……
- jzhl很简单一个道理,你算数能强过一个廉价计算器吗?硬要将人脑的劣势和计算机比,肯定没得比。
- u571alphago zero也不是用的一个TPU,而且深度学习优化差距很大,GV100优化之后跑TF框架性能是GP100的几十倍
直接硬跑某种算法,当然只有特定硬件跑的最快 - xphi既然是arxiv上的预印版,好歹拿来看一眼再发帖,否则就这么胡说的话是真的觉得大家都不懂英语?
- 双面胶要求不高是指什么意思? 5年前手机能跑还是说需要显卡级计算。 不说清楚估计差别大去了。
- bebop13这种描述很不精准啊。
这些棋类当初发明的时候的目的是“人类与自己对决的脑力游戏”,没带着“让ai搞不定的脑力游戏”这种目的。
说不定以此为目的发明一种棋类游戏,将来ai无论如何都赶不上呢。
而且“擅长”这个词有很多层面的解释,一个汽车工程师开车无论如何都比不过舒马赫(伤前),你能说汽车是法拉利的汽车工程师不擅长的领域么。
等ai什么时候能“发明”一种供人类使用的棋类游戏的时候再来说擅长吧。目前还只能是个非常好使的计算器而已。 - xphi看我引用的原文,现在的深度学习算法训练的时候需要很强的算力,但是使用这个算法并不需要很强的性能。Alpha Zero 训练算法的机器用了5000多个TPU,执行算法的机器只用了4个。
- u571不错,问题是你不学习怎么来用呢?又不是说学习一次就一劳永逸了,增强学习和强化学习每次进化或者适应新情况都需大量训练算力
- xphi现在的搞法就是学一次一劳永逸,所以说现在这个深度学习还是只能用于某些特定的方面,使用学出来的模型过程中继续进行学习是一件更难的事情。
不过机器学习有一点优势就是虽然学习成本很高,但是一旦学会后,学成的模型复制成本和使用成本都很低。拿下棋来说,人人都学到柯洁的水平基本上是不可能的,但是机器学习的话,虽然学成一个柯洁水平的很难,但是只要一旦训练好了一个,就可以迅速低成本的复制无数个柯洁,而且每个用起来都很便宜。
本帖最后由 xphi 于 2017-12-8 17:56 通过手机版编辑 - 双面胶是的 我明白你说的,但是,一个tpu的算力就很吊了,看怎么比
或者简单说,zero的算力远超民用级gpu。 - 双面胶赞,真心认真
- u571怎么可能一劳永逸啊,下棋是可以因为规则永远都不会变化,但是你要用到自动驾驶或者医疗行业,哪有固定的规则给你学习?
所以现在新的潮流就是转移和增量学习,根据新情况和数据对原有模型进行训练更新,未来随着AI应用深入对于训练计算需求还会大幅增加 - xphi是啊,所以我说增量学习更难,