蓝盟IT外包，AI学习灌水和造假！谷歌的新研究揭示了AI现实应用的陷阱-IT外包官网-蓝盟集团

蓝盟IT外包，AI学习灌水和造假！谷歌的新研究揭示了AI现实应用的陷阱

发布者：上海IT外包来源：http://www.lanmon.net点击数：1192

蓝盟IT小贴士，来喽！
目前，机器学习(ML )模型得到了比以往更广泛的应用，其影响力也越来越大。
但是，在现实领域使用它们时，问题不小，也经常发生意想不到的行为。
例如，分析计算机视觉(CV )模型的bad case，模型确实掌握了大部分对特征的理解能力，但有时会对人类完全不在意、无关的特征表现出惊人的敏感性。
例如，用自然语言处理(NLP )模型学习文本吧。那也确实在学习。但是，有时也依赖于没有直接被文本指示的人口统计相关，更麻烦的是，这样的错误还不太容易预测。
其实，有些失败的原因，是众所周知的。例如，对不准确的数据训练了ML模型，或训练了模型以解决与应用领域在结构上不一致的预测问题。
但是，在处理这些已知问题时，模型的行为在部署时并不一致，在培训的运行间距上也有所不同。
影响ML模型可靠性的主谋：不规范
谷歌团队在“Journal OFM Achine Learning Research”上发表了“不规范挑战了现代机器学习的可靠性”的论文。
359亚太及日本地区/PDF/2011.03395.PDF
文章指出，在现代机器学习系统中，一个特别容易导致故障的问题是不规范的。
另外，由于各种实际的机器学习(ML )系统中经常发生不规范的情况，谷歌对此提出了一些缓解措施。
什么是不规范？
不规范的背后是，机器学习模型通过所维护的数据进行了验证，但这种验证通常不足以保证模型在新环境中使用时，仍然有明确定义的行为。
ML系统之所以成功，很大程度上是在保留数据集的基础上验证了模型，从而确保了模型的高性能。
模型验证过程
但是，在固定的数据集和模型体系结构中，有许多不同的方法，可以获得训练过的模型的高验证性能。
但是，在标准的预测任务中，编码不同解决方案的模型通常被视为等价，因为持续预测性能大致相等。
但是，如果用超过标准预测性能的基准测量这些模型，其差异就会变得明显，对这些模型的无关输入干扰的公平性和鲁棒性将受到考验。例如，一些在标准验证方面同样出色的模型在社会群体和种族之间表现出比其他模型更大的差异，或者依赖于无关信息。
稍有干扰，深度学习网络就完全无法正常工作
在现实场景中使用这些模型时，这些差异将转换为预测行为的真正差异。
如果没有规范，研究人员在构建ML模型时所考虑的需求与ML管线(即模型的设计和实现的实际执行需求)之间将存在差异。
一个重要的结果是，ML管线原则上可以返回满足研究需要的模型。但是，这样，实际上，该模型只能满足对保留数据的准确预测，不能对超过这些数据分布的数据做任何事。
如何识别APP的不规范？
这项工作研究了在现实应用中使用机器学习模式时不规范的具体含义
谷歌展示了使用几乎相同的机器学习(ML )管线构建模型集，并只进行非常小的更改的策略。这种变化之小，即使对他们同时进行标准验证，也不会对性能产生实际影响。该战略的重点是关注决定模型初始化训练和数据排序的随机种子。
ml管道图像
如果这些小的变化对模型的重要属性产生了实质性的影响，则ML管道不完全表明模型在现实世界中的行为方式。研究人员发现在实验的各个领域，这些微小的变化会使模型的行为在现实世界中发生实质性的变化。
计算机视觉不规范
例如，请考虑计算机视觉中的不规范和鲁棒性之间的关系。
计算机视觉的主要课题之一是，深度学习模型在人类认为不太具有挑战性的分布变化下，经常变得脆弱。
在ImageNet基准测试中，已知良好的图像分类模型在ImageNet-C等基准测试中效果不好。这是因为将常见的图像损伤(如像素化和运动模糊)应用于标准的ImageNet测试集。因此，在实验中，标准管道没有规定模型对这些破坏的灵敏度。
ImageNet-C数据集示例
根据上述策略，使用相同的管道和相同的数据生成50个ResNet-50图像分类模型。这些模型之间唯一的区别是训练中使用的随机种子。
这些模型在通过标准ImageNet验证集进行评估时，实际上具有相同的性能。但是，如果模型是通过ImageNet-C (损坏数据上的不同测试集)进行评估的，则模型的测试性能变化比标准ImageNet验证的要大几个数量级。即使是用大得多的数据集进行事前训练的大规模模型，如用JFT-300M的3亿图像数据集进行事前训练的BiT-L模型，这样的不规范也会继续存在。在这些模型中，在训练的微调阶段改变随机种子会发生同样的变化。