蓝盟IT小贴士,来喽!
近年来,多主体强化学习取得了划时代的进展。 例如,DeepMind开发的阿尔法星在星际争霸II击败职业玩家,超过了人类玩家的99.8%。 OpenAI Five是第一个在DOTA2上多次击败世界冠军队,并在电子竞技中获胜的人工智能系统。 但是,很多强化学习(RL )代理为了解决任务需要很多实验。
最近,DeepMind的研究者提出了coberl (可控Bertforrl )代理,将新的对比度损失和混合LSTM-transformer架构相结合,提高了数据处理效率。 CoBERL可以从更广泛的领域使用像素级信息,从而实现高效、稳健的学习。
具体来说,为了学习RL中transformer更好的特征,研究者使用双向屏蔽预测,并且配合最近的比较方法进行泛化,但是这个过程不需要手动进行数据扩展。 实验表明,CoBERL可以在Atari套件、一系列控制任务和复杂的3D环境中提高性能。
介绍方法
为了解决深度强化学习中的数据效率问题,研究者对目前的研究做了两个修改
首先,通过提高屏蔽输入预测中自我注意力的一致性,提出了学习更好特征的新的特征学习目标
其次,提出了可以组合LSTM和转换器优点的体系结构的改进。
特色学习
研究者将BERT和比较学习结合起来。 基于BERT法,该研究将转换器的双向处理机制与掩码预测设置相结合。 一方面是双向处理机制,另一方面代理可以根据时间环境知道特定状态的上下文。 另一方面,位于掩模位置的预测输入通过降低预测后续时间步的概率来缓解相关联的输入问题。
虽然研究者也使用了比较学习,但是很多比较损失(例如SimCLR )依赖于数据扩展建立了可比较的数据组,但是在该研究中不需要利用这些手工数据扩展来构建代理任务。
对此,本研究根据输入数据的顺序性质,制作了比较学习所需的相似点和不同点的必要分组,不需要裁剪和像素的变化等只依赖图像观察的数据扩展。 针对比较损失,研究人员使用了RELIC,这个损失也适应时域,他们将GTrXL transformer的输入输出进行了排列,组成了数据组,使用RELIC作为KL正则化的方法。 例如,SimCLR在图像分类领域,Atari在RL领域的性能得到了提高。CoBERL体系结构
在自然语言处理和计算机视觉任务中,转换器在连接大范围的数据依赖性方面非常有效,但在RL设置中,转换器难以训练,容易拟合。 相反,LSTM在RL中被证明非常有用。 虽然LSTM不能很好地捕捉长范围的依赖关系,但是可以有效地捕捉短范围的依赖关系。
在该研究中,提出了在GTrXL的上部添加LSTM层,同时在LSTM和GTrXL之间具有通过GTrXL的输入进行调制的附加栅极残差连接的简单且强大的架构变更。 此外,该体系结构还包括从转换器输入到LSTM输出的跳转连接。
文/上海蓝盟 IT外包专家