定量评估，算法扩展：加强学习研究的十大原则-IT外包官网-蓝盟集团

定量评估，算法扩展：加强学习研究的十大原则

发布者：上海IT外包来源：http://www.lanmon.net点击数：1021

今年9月举行的Indaba2018峰会上有很多干产品。昨天，消化细菌为您提供了一个关于27种天然咖啡疗法的精彩问答。今天，Digestococcus将为您提供强化学习的10条原则清单，这些原则不仅有助于强化学习，还可以为机器学习研究提供一些参考。
这10项原则由会议期间Insight数据分析研究中心的博士生Sebastian Ruder编写。除了罗德自己的分析，他还分享了自己的照片。
1.评估推动了进步。
定量评估，算法开发。
定量评估可以促进进步。评估奖励的选择决定了进步的方向，确保评估指标与目标密切相关并避免主观评估（例如，人类受试者）。另一点是学习双Q比学习个体Q更好，因为后者可以减少偏差。
2.算法的可扩展性决定了成功。
定量评估，算法开发。
扩展算法以避免性能限制非常重要。深度学习非常好，因为它可以有效地扩展，但样本的效率同样重要。
算法的可扩展性的性能取决于资源，算法的可扩展性决定它是否成功：那么，通过提供更多资源给出了多少性能？值得一提的是，这里的资源是指计算，内存或数据。
3.普遍性，即算法在其他任务中的表现非常重要
定量评估/算法扩展

关键是设计一系列具有挑战性的任务，其中必须评估不同的新任务。避免滥用当前任务。

4.相信代理人的经验。
定量评估/算法扩展
不要相信人类经验，也不要相信工程特征。当数据有限时，域中的经验和归纳偏差非常重要。
有些任务很可能没有完成，但实际上你可以从中学到很多东西。这类任务或项目通常符合以下三点：
很难接受RL的核心问题。
它是人工智能的核心主题
值得你的努力
国家必须是主观的。
定量评估/算法扩展
必须将状态建立为模型的状态，即RNN的隐藏状态，而不是环境的定义。只有代理人世界的主要观点才是重要的。不要对外部现实进行推理，因为所取得的效果非常有限。6.流量控制
定量评估/算法扩展
代理会影响数据和体验的流动。代理必须能够访问控制环境。目标不仅是最大化奖励，还控制对流。
7.价值功能塑造了世界。
定量评估/算法扩展
价值函数有效地总结了当前和未来的状况。多值函数允许我们模拟世界的多个方面。它可以帮助控制流量。
8.从想象的经验中学习。

上一篇: 蓝盟IT外包，元宇宙：四梁八柱是什么
下一篇: 2018年20项最具影响力的科研工作中的20项，配置它！
分享到：

微软云

IT采购

弱电工程

系统集成

客户故事

定量评估，算法扩展：加强学习研究的十大原则

400-635-8089