原来没有什么大型机,alpha go只有四个TPU

  • j
    jun4rui
    DeepMind 的 AI 从 AlphaGo Zero 进化到 AlphaZero

    Google AI 子公司 DeepMind 的研究人员本周在预印本网站 arxiv 发表论文(PDF),称他们的 AI 程序从 AlphaGo Zero 进化到了 AlphaZero,通过自对弈在数小时内打败了最出色的国际象棋和日本将棋程序。AlphaGo Zero 是通过强化学习方法训练花了 40 天时间成为超越人类的最强大围棋选手。AlphaZero 应用了类似但更通用的算法,它只掌握最基本的棋类规则,然后通过自对弈反复训练强化学习逐渐进化。它用了 8 小时超越了打败李世石的版本 AlphaGo Lee,用了 4 小时打败了最出色的国际象棋程序 Stockfish,用了 2 小时打败了将棋程序 Elmo。AlphaZero 和 AlphaGo Zero 一样都只使用 4 个 TPU。
  • j
    jzhl
    只能说明了棋类游戏是一种人脑不擅长的游戏。
  • c
    choudi
    话说终结者外传里第三方AI原型就是个象棋程序,接个废弃的终结者机体做对人交流界面。
  • 查理王
    进化速度越来越快了
  • 变色龙
    自己弄瞎自己双眼,也是蛮有勇气的
  • B
    BD
    Machine Learning以来的是大数据和不断进化的算法,对计算能力要求不高,这也就是为啥自动驾驶汽车不需要搭载大型机在上面的原因。
  • y
    ylara
    训练还是要算力的,推理少
  • 有生之年能见到某个AI突然学会某种棋类下法吗?
  • t
    tanglee4950
    赶快来消灭人类吧
  • h
    hourousha
    别小看TPU,之前alphago zero说是用了20来天自我训练超过master,之后leela的作者按照这思路做了一个leela zero,但估算如果用GTX1080Ti的话,得训练1700年……
  • j
    jzhl
    很简单一个道理,你算数能强过一个廉价计算器吗?硬要将人脑的劣势和计算机比,肯定没得比。
  • u
    u571
    alphago zero也不是用的一个TPU,而且深度学习优化差距很大,GV100优化之后跑TF框架性能是GP100的几十倍

    直接硬跑某种算法,当然只有特定硬件跑的最快
  • x
    xphi
    既然是arxiv上的预印版,好歹拿来看一眼再发帖,否则就这么胡说的话是真的觉得大家都不懂英语?
  • 双面胶
    要求不高是指什么意思? 5年前手机能跑还是说需要显卡级计算。 不说清楚估计差别大去了。
  • b
    bebop13
    这种描述很不精准啊。
    这些棋类当初发明的时候的目的是“人类与自己对决的脑力游戏”,没带着“让ai搞不定的脑力游戏”这种目的。
    说不定以此为目的发明一种棋类游戏,将来ai无论如何都赶不上呢。

    而且“擅长”这个词有很多层面的解释,一个汽车工程师开车无论如何都比不过舒马赫(伤前),你能说汽车是法拉利的汽车工程师不擅长的领域么。

    等ai什么时候能“发明”一种供人类使用的棋类游戏的时候再来说擅长吧。目前还只能是个非常好使的计算器而已。
  • x
    xphi
    看我引用的原文,现在的深度学习算法训练的时候需要很强的算力,但是使用这个算法并不需要很强的性能。Alpha Zero 训练算法的机器用了5000多个TPU,执行算法的机器只用了4个。
  • u
    u571
    不错,问题是你不学习怎么来用呢?又不是说学习一次就一劳永逸了,增强学习和强化学习每次进化或者适应新情况都需大量训练算力
  • x
    xphi
    现在的搞法就是学一次一劳永逸,所以说现在这个深度学习还是只能用于某些特定的方面,使用学出来的模型过程中继续进行学习是一件更难的事情。

    不过机器学习有一点优势就是虽然学习成本很高,但是一旦学会后,学成的模型复制成本和使用成本都很低。拿下棋来说,人人都学到柯洁的水平基本上是不可能的,但是机器学习的话,虽然学成一个柯洁水平的很难,但是只要一旦训练好了一个,就可以迅速低成本的复制无数个柯洁,而且每个用起来都很便宜。

    本帖最后由 xphi 于 2017-12-8 17:56 通过手机版编辑
  • 双面胶
    是的 我明白你说的,但是,一个tpu的算力就很吊了,看怎么比

    或者简单说,zero的算力远超民用级gpu。
  • 双面胶
    赞,真心认真
  • u
    u571
    怎么可能一劳永逸啊,下棋是可以因为规则永远都不会变化,但是你要用到自动驾驶或者医疗行业,哪有固定的规则给你学习?

    所以现在新的潮流就是转移和增量学习,根据新情况和数据对原有模型进行训练更新,未来随着AI应用深入对于训练计算需求还会大幅增加
  • x
    xphi
    是啊,所以我说增量学习更难,