蓝盟IT外包，强化学习AI会带你一打五吗？ MIT新研究： AI不是人类最好的队友-IT外包官网-蓝盟集团

蓝盟IT外包，强化学习AI会带你一打五吗？ MIT新研究： AI不是人类最好的队友

发布者：上海IT外包来源：http://www.lanmon.net点击数：1258

蓝盟IT小贴士，来喽！
加强学习的AI在围棋、星际争霸、王者荣耀等游戏中以压倒性的优势压倒人类玩家，也证明了思维能力可以通过模拟获得。
但是，如果这么强的AI成为队友的话，会被带走吗？
MIT林肯研究所的研究人员最近在纸牌游戏的Hanabi (烟花)上与人类和AI agenet共同研究的结果表明，尽管RL agent的个人表演能力非常好，但如果与人类玩家一起匹配，只会变得漏洞百出
强化学习AI会带你一打五吗？ MIT的新研究： AI小于人类span大于span，小于span并不大于I 10https://Arxiv.org/PDF/2107.07630.PDF
Hanabi是玩家之间需要相互交流合作才能获胜的游戏，在这个游戏中，人类玩家更喜欢基于可预测规则的AI系统，而不是黑匣子神经网络模型。
强化学习AI会带你一打五吗？ MIT新研究： AI并不是人类的不足span大于不足span，也并不是不足span大于i 15。一般来说，最先进的游戏机器人使用的算法都是深度学习(deep reinforcement learning )。首先，通过在游戏中提供一组主体和可能的候选action，通过环境的反馈机制进行学习。在训练过程中，使用随机搜索动作最大化目标，获得最佳动作序列。
深度学习的初期研究是根据人类玩家提供的游戏数据进行学习的。最近的研究者，没有人类的数据，就可以单纯地依赖自我游戏来开发rl代理了。
MIT林肯研究所的研究者们关注着如何让这么强大的AI成为队友。这项工作也有助于进一步了解强化学习的应用仅限于电脑游戏，不能扩大到现实应用中。
强化学习AI会带你一打五吗？ MIT的新研究： AI并不比人的span小、span小、span小、i 22大。近来的许多强化学习研究都应用于人类的主要对手是人类玩家或其他AI机器人的单机游戏(用Atari Breakout打砖头)或对抗性游戏。
在这些对抗措施中，强化学习取得了空前的成功。因为机器人对这些游戏没有成见和假设，从零开始学习游戏，用最好的玩家数据进行训练。事实上，AI自从开始玩游戏，甚至自己创造技术。举个有名的例子，DeepMind的alphago在那场比赛中采取了下一步，但分析师认为这一步是错误的，因为这违背了人类专家的直觉。
但是，同样的行动产生了不同的结果，AI最后用这一招打败了人类。所以当rl代理与人类合作时，研究者认为同样的聪明也会起作用。
强化学习AI会带你一打五吗？ MIT的新研究： AI不是小于人类span小于span小于i 31，而是在MIT研究者的实验中选择了卡牌游戏Hanabi。其中包括2到5名玩家，必须合作按特定顺序出牌。 Hanabi是一个简单但需要合作和有限信息的游戏。
Hanabi游戏是2010年发明的，有2到5个玩家参加。玩家需要按照正确的顺序一起打出五种颜色的牌。特点：所有玩家都能看到对方的牌，但看不到自己的牌。
根据游戏规则，玩家可以互相出示自己手中的牌，推测其他玩家应该打出哪个牌，但出示的次数有限。
正是这种有效交流的行为给Hanabi带来了科学吸引力。例如，人类可以自然地理解其他玩家的提示，但机器本质上无法理解这些提示。
到目前为止，人工智能程序已经可以在Hanabi烟花游戏中获得高分，但仅限于和其他类似的智能机器人一起玩。如果不熟悉其他玩家的游戏风格，或者有“临时”(一次也没有一起玩过)的玩家，对程序的挑战最大，更接近现实。
近年来，一些研究小组探讨了可以玩Hanabi的AI机器人的发展，其中一些强化学习代理使用符号AI。
AI的评价主要采用他们的性能，与self-play (和自己玩)、cross-play (和其他类型的代理人玩)、Human-play (和人类合作)。
强化学习AI会带你一打五吗？ MIT的新研究： AI并不是人类小于span大于span，小于span大于i 46和人类玩家之间的cross-play，它对测量人与机器的合作尤为重要，也是论文实验的基础。
为了验证人工智能协作的有效性，研究者使用了SmartBot。这是基于规则的自播放人工智能系统，也有游戏和RL算法中最高的模型Hanabi机器人Other-Play。在实验中，人类参与者和AI代理玩了几次Hanabi游戏，但队友的AI每次都不一样，实验者不知道和哪个模型一起玩。
研究者根据客观和主观的指标评价了人类AI合作的水平。客观指标包括分数、错误率等。主观指标包括人类玩家对AI团队成员的信任和舒适度、了解AI动机和预测行为的能力等经验。
两种人工智能模型的客观表现没有明显的差异。但是研究人员预计人类玩家对Other-Play有更积极的主观体验。因为他们受过与其他玩家合作的训练。
参与者的调查表明，与基于规则的智能bot代理相比，经验丰富的Hanabi玩家对其他游戏的RL算法经验较少，成功的关键之一是向其他玩家提供伪装线索的技能。
例如，假设你把“一个方块”牌放在桌子上，队友手里拿着两个方块。当你指着牌说“这是两张”或者“这是正方形”的时候，你会偷偷告诉队友玩这张牌，而不会告诉你所有关于牌的信息。经验丰富的玩家很快就会明白这个提示。但是，要向AI队友提供和证明同样类型的信息要困难得多。
文/上海蓝盟 IT外包专家

上一篇: 蓝盟IT外包，元宇宙：四梁八柱是什么
下一篇: 蓝盟IT外包，脸书宣布关闭脸部识别功能
分享到：

微软云

IT采购

弱电工程

系统集成

客户故事

蓝盟IT外包，强化学习AI会带你一打五吗？ MIT新研究： AI不是人类最好的队友

400-635-8089