简直岂有此理，人类玩猜拳居然被AI完败

2020-08-29 08:56

stlendor2020-08-29 08:56
https://mp.weixin.qq.com/s/JipvRc9-CfRcxDYFJ7HJ5g

看得我火冒三丈，那些家伙就不能让两台AI互相猜拳吗？然后在旁边看热闹

人们普遍认可 “石头-剪刀-布” 三者之间的克制关系。“公平+随机” 的特性使其不仅是活跃气氛的小游戏，更能作为一种相对公平的解决问题的手段，广泛应用在解决分歧，决定顺序，或者确定归属的关键时刻。
更不用说，在谁洗碗、谁拖地、谁做饭之类的家务活上，猜拳自带的 “愿赌服输” 可以有效维系家庭和睦，堪称随叫随到的家庭关系调解员。
在大多数人的认知里，猜拳是随机事件，玩家获胜的概率应该是一样的且恒定在三分之一，但事实可能并非如此。
近日，浙江大学何赛灵教授的研究团队开发了一个基于马尔可夫链的 AI 模型，专门用来玩猜拳游戏。在和 52 名人类玩家分别大战 300 回合之后，AI 击败了 95% 的玩家。
?图 | AI 模型净胜场数变化
对于人类玩家来说，规则是赢 +2 分，平 +1 分，输不得分。在与 AI 对战之前，参与者知道获胜会获得金钱奖励，总分越高，赢的钱越多。因此玩家故意放水或者随便乱选的概率极低。
即便如此，AI 仍然大胜人类。在最悬殊的一场较量中，AI 获得了 198 次胜利，55 次平手，仅输了 47 次，胜率超过人类对手 4 倍。全部 15600 回合详尽的原始博弈数据，在论文的补充资料中给出（详见参考文献）。
如果猜拳胜负真的是随机概率，那么从统计学的角度来讲，15600 场比赛下来，AI 获得如此大优势的概率非常低。
拥有“智囊团”的Multi-AI模型?
本质上来看，猜拳属于博弈问题，其背后蕴藏着经典的纳什均衡，而每个个体的习惯、认知、策略和策略变化都会影响实际胜率。比如你和对手很熟悉，那么你可能知道他/她经常出布，因此可以多出剪刀来克制。
浙江大学何赛灵教授团队提出的 AI 模型就是利用了类似的方法，证明了猜拳真的存在针对不同个体的长期制胜策略，可以有效提高胜率。
这套 AI 模型基于 n-阶马尔可夫链设计，拥有记忆性，能够向前追溯最多 n 个历史状态并加以利用。
为了在实战中应对人类玩家的不同性格和策略，研究团队还发明了一套 Multi-AI 模型。
“建立对每个人都有效的单一模型很困难，因此我们决定将单个模型结合起来，使其能够区分和适应更多不同的竞争策略。” 研究人员在论文中解释称。
在与人类对战的第一套 Multi-AI 模型中，他们放入了 1-5 阶马尔可夫链，即 5 个独立的 AI 模型，分别参考之前 1-5 个动作。Multi-AI 会从整体上参考 5 个 AI 模型各自的决策，至于选择哪个，还要看它们最近 5 次的表现。
这里的 “最近 5 次” 被定义为一个超参数，名为 Focus length，可以视情况调整大小，实现进一步优化。在与人类对战的第二套 Multi-AI 模型中，该参数就被设为了 10。
?图 | Multi-AI 模型的决策逻辑
打个比方，每一个 n 阶马尔可夫链模型就像是一位军师，各自有不同的决策标准。而 Multi-AI 模型就是司令，手底下有好多名军师组成的智囊团。做决策时，每个军师会提交自己的出拳建议，司令会根据他们过去几次（Focus Length）的表现，采纳综合分数最高的人的建议，以提高长期胜率。
如果人类玩家连续胜利，就会促使 Multi-AI 转向选择其他 AI 模型的更优解。如果人类玩家连续失败，大概率会转换策略，或者打破之前的出拳规律，这时 Multi-AI 也可以随之调整。
最终的社会实验结果反映出了这个想法的有效性。在 52 名志愿者中，只有不到 5 人击败了 AI。很多人都在最初 20-50 个回合里处于领先，但随后就被 AI 捕捉到了隐藏的行为模式，饮恨败北。
那些击败 AI 的人，胜率也只是稍微高出一些，并未拉开太大差距。
6 年前被质疑的研究?
值得一提的是，在开发 AI 模型背后的算法时，研究团队阅读了 6 年前另一个浙大团队的研究成果，但使用了另一种不同的博弈策略。

相较于之前对于所有玩家数据整体以统计学的方式进行研究，这里的 Multi-AI 模型更强调针对不同玩家之间的个性差异、出拳策略，来及时的进行调控，选取当下最适宜的博弈策略。
2014 年 5 月，很多媒体都报道了一项以 “石头剪刀布” 游戏为对象的科研成果。

这项研究课题原本是 “可控实验社会博弈系统中一些非平衡统计物理问题”，但媒体和舆论关注的重点大多是 “如何提高猜拳胜率”，因此还被质疑是浪费经费。
其实不然。这项研究还被《麻省理工科技评论》评为 2014 年最佳成果（预印本）之一。
?图 | 2014 年《麻省理工科技评论》的报道
论文揭示了猜拳游戏背后蕴藏着不同的行为模式，比如赢家倾向于下一轮出同样的手势，而输家倾向于改变；人们更愿意出石头等等。但更深层的主旨是探讨纳什均衡在真实博弈中是否成立，研究现实中的博弈模型框架，并且分析游戏中的宏观周期现象与微观行为基础。这其中用到的基础理论涉猎博弈论、心理学和神经科学等多个领域。
类似的，2020 年这项关于 “石头剪刀布” 的最新研究，成果不仅仅是一个很厉害的猜拳 AI，还是一个很厉害的循环制衡模型分析师。未来有望拓展到其他博弈场景，比如预测竞争对手的下一步举动，规划更有效的竞选策略，或者制定更有利的定价方案等等。
“（我们发现）人类的竞争行为确实有规律可循，通过使用适当的简单模型就能利用这些规律，”研究人员在论文中总结道，“对于竞争行为模式以及如何利用它们的研究，有望让我们更好地建模，预测和适应不同的竞争模式。”
流年2020-08-29 08:57
xwjrain2020-08-29 08:59
图神威武
风一样的sb2020-08-29 09:05
这个东西，是不是就是说这个游戏中人类的随机并不是真正的随机？
那让电脑搞个随机规律，人类来按那个出会不会AI就输了？

顺便，图神AI不是一般的强
zhxutao2020-08-29 09:06
不知道如何测试的，如果是面对面，又有图像识别，也许是偷跑了。
跳跳猪2020-08-29 09:10
太长没详细看，是一人一盘制吗？是的话这个厉害了。 iOS sucks ~
stlendor2020-08-29 09:14
图神太神了，ai强大
huohua39302020-08-29 09:16
图神威武！！
logic902020-08-29 09:17
人的猜拳风格不是随机的，玩一局也许能随机。。。玩的多了估计就有思维定式了HiPDA·NG
hxly2020-08-29 09:21
人的思维模式，决定了每次出拳的选择与上一次有关，并非随机。
xiaotianhu2020-08-29 09:25
好想知道后来呢 iOS fly ~
hudiuew2020-08-29 09:26
人其实就是一台精密的机器人，说到这个上帝又在偷笑了，人类迟早可以造出人造人，而且人造人比现在的人类还强大。
梦想2020-08-29 09:26
图神太神了，ai强大
风一样的sb2020-08-29 09:29
终结者肯定要敲小姐姐一棍子的
lanwater2020-08-29 09:31
我儿子都会猜拳取胜策略，3:0赢了我老婆。 iOS fly ~
fanconi2020-08-29 09:40
图神太牛逼了
pataren2020-08-29 09:41
是时候派仁科上场了
cjiangj2020-08-29 09:59
这论文毫不严谨。

50/52约96%
49/52约94%

哪来的95%？
猫了个咪的2020-08-29 10:11
回复18#cjiangj

你看了原文吗？We experimented with 52 different people, each playing 300 rounds continuously against one specific multi-AI model, and demonstrated that our strategy could win against more than 95% of human opponents.
qvb912020-08-29 10:15
更倾向于提前识别到手势瞬间做出判断
LittleBlue2020-08-29 10:21
看有没有图像识别，看表情手势预判，这个胜率接近100%的
cjiangj2020-08-29 10:29
回复19#猫了个咪的

好吧，我不应该说论文。

我哪有那雅兴看原文。
Jr大尾巴狼2020-08-29 10:33
分歧终端机pro
flyfish2020-08-29 10:41
回复4#风一样的sb
想法一样，人类并不是真随机，应该用电脑编个完全随机出拳的程序去和ai比
都敏俊2020-08-29 10:44
机器人可以慢速100倍观察你手势，预判你出什么的
iOS fly ~
宝贝记2020-08-29 10:49
也这么觉得。文章没说是当面对战，还是中间隔断，出完再展示结果。
forwhat2020-08-29 10:51
靠，图神牛逼plus ，牛逼max
notrue2020-08-29 10:52
屠神威武… iOS fly ~
roadlala2020-08-29 11:22
这个真的科学吗
人类玩100次也是心理战，俩人也不会33%随机出啊
人机对战，等于是一个团队在机器背后琢磨对手的心理，但是人不认为机器有心理活动 huawei fly ~
pas_dts2020-08-29 11:39
肯定不是提前识别。我猜是，人类出拳不是随机的，是有思维定势的，电脑通过深度学习找到了规律
stlendor2020-08-29 11:44
当然是这样，否则没意义。
猫了个咪的2020-08-29 12:01
怀疑有图像识别的最好先翻翻原文啊
septemper12020-08-29 12:06
野球拳纹舞 iOS fly ~
理想2020-08-29 12:09
不用看原文，有图像识别的话这研究一文不值。这世界没有真正的随机，电脑都不能产生真正的随机，何况人类。
wangxt2020-08-29 12:10
我和AI就玩三局，它能赢？
godzillaqqq2020-08-29 12:15
这个做弊的，那时ai不强，你按键的瞬间电脑就已经知道了。
大黄鸭2020-08-29 02:05
回复2#流年
求出处，真希望是电影，后面还有可看的…… 愚蠢的人类，嘎嘎
fengqi2262020-08-29 02:43
剪刀石头布：如何成为超级预测者
阿基琉斯2020-08-29 04:02
表示不信，人类完全可以随机。我拿个硬币玩死它。
阿基琉斯2020-08-29 04:03
回复34#理想
电脑不能产生真正的随机，人类能抛硬币呗。
胖菜鸟2020-08-29 04:27
卧槽这个t800一板子下去会不会脑浆都爆出？美版ip7p iOS12 128G 无锁了！
ALIENCANADA2020-08-29 05:05
好像有看过
clive2020-08-29 05:16
是吗？那再来一遍，告诉人以输为目标，会怎么样？
陈想妹2020-08-29 05:21
回复43#clive
你可以把输看成是一种赢 iOS fly ~
kony2020-08-29 05:31
skynet，你知道的小米note3 HP
kony2020-08-29 05:32
结局就是几部终结者电影小米note3 HP
kony2020-08-29 05:37
分歧终端机了解一下小米note3 HP
huicai2020-08-29 07:33
zxy_90232020-08-29 07:39
搞个AI去澳门吧
winhoo2020-08-29 07:55
回复48#huicai

哈哈，伟大的发明