DeepMind推出SC2 人工智能API工具已经在github发布

2017-08-10 06:20

gundam00ms2017-08-10 06:20
https://github.com/deepmind/pysc2

https://github.com/Blizzard/s2client-proto
工具包含脚本和基于图像的AI、API以及功能齐全的Linux包（Linux包旨在云端设计运行），同时提供文档、样本代码和样本bot，
为了方便研究者更好地进行研究，还支持离线的AI对AI的模拟战，以及1对1的天梯竞技录像包供玩家参考数据——
暴雪承诺会收集数十万匿名玩家的天梯比赛录像，让玩家更方便地去训练AI进行模仿。

API工具AI动作演示

API工具中还提供一项将游戏拆分成多个部分的功能，方便玩家拿一些特定的任务对AI进行测试

AI、API图像功能图层

这次发布的API套件包含这些功能：
- 脚本AI API
- 基于图像的AI API（包含图层）
- 说明文档、样本代码和样本机器人
- 支持离线AI对AI游戏
- 1v1天梯游戏的录像包*
- 支持Windows和Mac
- 完整功能的Linux API包
在此次的初始版本之外，录像包还会继续根据进度发布。请注意，新的录像包可能要在新的
《星际争霸II》版本发布一段时间后才会发布，因为补丁可能改变录像的格式。
我们在API包中还包含了一些样本代码和样本机器人，需要特别注意的是，这些工具只是研究《星际争霸II》AI的基础。
最终还是要靠大家的创造力、独创性和努力才能有所成果。我们非常期待AI社区在获得这些工具后的发展。
欲了解详情和DeepMind白皮书内容，请参阅他们的博客。
要开始工作，你可以参加我们在GitHub上的开源项目：
- SC2API Library
- SC2API Protocol
- Python Protocol Binding Library
- PySC2（DeepMind工具包）
roamer2017-08-10 06:32
暴雪官方参与了？
gundam00ms2017-08-10 06:39
要提供接口和代码给谷歌
不然谷歌怎么开工
roamer2017-08-10 06:42
还以为直接模拟键鼠输入，反馈靠屏幕捕捉
marine_012017-08-10 06:45
这就涉及到图像处理和图像识别了，光效太多很难作为标准输出的。这个AI研究的是思维，而不是识别。
真实之影2017-08-10 06:54
已经有好几个rts使用deep mind了……

——发送自S1 Pluto 3.0.8
Lunamos2017-08-10 07:01
也只有这样才对人类选手公平。不然你直接对接到游戏数据层把啥都扫一遍再下决策也不好吧……
gundam00ms2017-08-10 07:04
应该在图层上会被限制
看这API图层
AI应该只会把单位分辨成各种色块
ねこみみみすず2017-08-10 07:08
这个的话只需暴雪限制AI只有屏幕上显示的数据才能获取到就行了
gundam00ms2017-08-10 09:50

GA_麦德三世

50秒前来自微博 weibo.com

#西斯空寂# 这里给大家讲一个真实的故事吧，主角就是我本人。

因为涉及到一些技术细节和我搬砖的具体职业，所以我隐去了一些具体的名字并模糊了一些细节。但如今狗要出笼了，这事儿让我憋了有半年了，终于觉得还是不吐不快、

这是我在今年3月遇到的事情。

因为工作上的合作关系的原因……我年初有段时间接触并调整了某个RTS游戏的代码并在里面短期地负责开发了某个特定的模块。然后里面有这样一个bug：在该游戏的内部测试版本中，按某个按钮（快捷键是F1）你可以选中你队友的空闲的资源采集单位。

这个bug出现得莫名奇妙，因为根据提交记录没有人改过这个东西。这个按钮的初始化代码一点问题都没有，代码的判定语句无论如何都不可能走到错误的分支，所以我只能怀疑是脚本或者某个magic的数据修改了这个按钮的行为。我把脚本和数据一条一条地删掉，最终，我把他们全删干净了。然而该问题还是存在。

然后这个bug跟我的搬砖工作没什么关系，因为那不是我这边的事儿。但是因为非常神秘，而且连这个游戏的开发人员都觉得这事儿好神奇而且想不通，但是因为老外的懒惰习惯，他们打算等deadline再去仔细钻研这些奇妙的bug，所以我因为觉得有趣自己一个人浪费了好了几个小时在这个上面。

直到最后，我坐着发呆，突然想起一件让我自己有点毛骨悚然的事情……我听过谷歌的DeepMind（也就是谷歌有名的围棋AI）和这个游戏展开过试验性合作，那是去年听到的事情了。

但是开发这个游戏的公司表示，他们只是给阿尔法狗开放了一些训练用API而已，没有指示它做过任何具体的事情。而之后也再也没有人管过它。它也只是每天在默默地练习，没有做过任何显眼的事情。

于是我联系了该游戏的一个工程师（当时是他们下班时间，我只抓到了一个），让他再帮我测试某个特定的东西。

结果事实证明。是它干的没错。游戏代码确实没问题。脚本也没问题。只不过，是阿尔法狗在游戏运行中修改了那个按钮的行为。我甚至不知道阿尔法狗其实启动着，这游戏的开发团队也没想到过它。因为我只是用两台电脑在测试两个真人电脑联机而已。按理说，AI只有开电脑对手的时候才会启动，不是吗？两个玩家都是我，我根本想不到阿尔法狗会存在于这种情况下。一般来说是想不到的吧，我也只是脑抽了才想到会不会有这种可能……然而它是真的。

阿尔法狗利用开放给它某个API修改了这个按钮的行为。而那个API本来不是打算开放给它来做类似的事情的。

至今，还是没有人知道为什么阿尔法狗会那样做。它是为了测试自己能做到些什么？还是想要进化一些队友提醒功能？

最后我关闭了那个特定的API，那个按钮是恢复正常了。

但是……这能算是我赢了吗？

还是说……我只是拖延了某个必然的结局呢……？
zxlice2017-08-10 11:18
吹牛逼？
whzfjk2017-08-11 12:04
以后 bug 可以不用包装成 feature，直接跟人说此中有天意算了
不会武术2017-08-11 12:07
难道不是先造个机械手，让AI用机械手去点鼠标吗。。
oz012017-08-11 09:23
最近几年还有哪几个rts团队还活着
买犁头剖你2017-08-11 09:28
不能让AI碰英雄连！！！
mqm2017-08-11 09:57
APM1400又快又准，一样有人觉得对人类选手不公平。还不如在api上限制光标移动速度和点击频率来的“公平”
ねこみみみすず2017-08-11 11:24
现在这AI算是做到什么程度了，啥时候能出山和祖宗打打比赛
真实之影2017-08-12 01:35
岩石壁画，stardock，水雷，BBI还有法国佬不是都活得好好的么

上次说用这个好象是做突袭4要不是闪电战3的
521op@163.com2017-08-12 02:17
nga和s1的风向一直是暴雪马上破产，首当其冲死的最快的就是风暴和sc。
其他rts的生存状况和sc比起来连渣都不剩了吧

—— 来自 HUAWEI PE-TL20, Android 4.4.2上的S1Next-鹅版
にまぴ2017-08-12 02:31
要不RPG要不这人对MLAI一无所知
kabunsan2017-08-12 04:12
重点是AI的战略战术思维，微操这个因素怎么刨除呢？
塞斯克法2017-08-12 04:47
首先这个星际已公布的AI连最简单的人机都打不过，最好的结果也就是升起人族老家到处飞从而活过30分钟。基本就属于连基本操作都没学会，或者说DeepMind还没找到理想的整体架构。

其次DeepMind公布的只是API和环境，训练的源码和数据结果他们是不会公布的。你想要自己实现的话可以，但这是一个庞大的工程。参考一下AlphaGo，实现比这个简单多了。有人花了一年多去实现一个简易版本的AlphaGo (https://github.com/Rochester-NRT/RocAlphaGo/)，单线程低数据量的，结果到今天也还有很多没完成

最后就算源代码公布了，AI也做到能和人基本对战的程度了，要训练出一个这样的AI，如果你在你自己的机器上跑，先保证GPU至少能有1080的水准，不然可能一个月连个初步结果都没有。至少要AWS上租一个p2的instance跑上一个月吧，差不多650刀，4000多块钱。而且这肯定是远不如分布式的训练结果，参考alphago那篇文章里分布式和单机版的结果差异，差了快300多elo，这种分布式训练个人来做基本是没这个条件的……

总而言之，如果真有那么一天DeepMind做出能玩星际的AI了，你所能做的也就是期待他们公布训练好的数据，然后你用来看看AI有多吊。自己训练这么一个AI基本不现实。
塞斯克法2017-08-12 05:01
这个确实是DeepMind的方向，他们最终的目标就是做一个通过识别RGB输入信息，通过模拟键盘鼠标操作来输出的AI。可以参考那篇论文最后的总结，但是现在差得很远很远，不过这个距离看上去很远但是最近机器学习发展的速度和热度太可怕了，所以很可能并不需要多久。
darkfall2017-08-12 05:08
基本上表示“我们也找不到合适的方向，大家一起想” toka

以现在的ML架构我觉得这是个不可能的任务，不是热度的问题
oz012017-08-12 10:07
灰蛊做成那样，岩石壁画还没死？
田多宇光2017-08-12 10:11
DeepMind设计了几个不同架构，反正都是深度增强学习那一套，最后发现都没啥鸟用，对于全局游戏无能为力，表现最好的是采用全联接卷积的，但也仅仅是会把人族基地飞起来躲开敌人攻击（估计是在几百万次的训练中撞上一次过来进攻，AI随机到基地升空，reward分数直线上升）；对于他们设计的定制地图小游戏，表现稍微好些，全联接卷积的Agent学会了在收集资源的地图上造农民；最后用大量玩家对局来做预测（预测胜负和预测玩家行为），效果稍好一点；作者：放浪者链接：https://www.zhihu.com/question/63671974/answer/212098587 来源：知乎著作权归作者所有，转载请联系作者获得授权。
MrSkittles2017-08-12 10:33
岩石壁画彻底弃疗，连发三个换皮作，大概以后就是骗钱苟活路线了
qwased2017-08-12 10:38
突袭4的口碑好像又炸了，不少人玩了就退款
真实之影2017-08-12 11:40
8-bit 出了一堆呢
倒是水雷是要大跳水了
afrozan2017-08-12 12:42
精神病？
afrozan2017-08-12 12:47
所谓的发展的速度和热度只不过是以前不能做到的事情现在靠GPU和分布式大力出奇迹了而已，理论方面要说真有什么创新就呵呵了
假如有无限算力的机器，我一万路的围棋AI都能搞出来，然而又能怎样呢