为什么需要评价?
让我们从一个非常简单的例子开始。
罗宾和山姆都开始准备工科大学的入学考试了。 他们俩共用一个房间,为解决数字问题做出了同样的努力。 他们俩全年学习几乎相同的时间,参加期末考试。 令人吃惊的是罗宾被清除了,但山姆没有被清除。 被问到时,我发现他们的准备战略有“测试系列”的区别。 罗宾参加了测试系列。 他过去参加那些考试测试他的知识和理解力,然后进一步评价了他的落后之处。 但是山姆很自信,他只是在不断地训练自己。
同样,如上所述,可以使用很多参数和新技术广泛训练机器学习模型,但如果跳过其评价,就难以置信了。
模糊矩阵
模糊矩阵是模型预测与数据点实际类别标签之间的相关性的矩阵。
如果想让模型变聪明,就必须正确预测模型。 这意味着你的“正肯定”和“负否定”必须尽可能高,同时错误肯定和错误否定必须尽量减少错误。 关于比率,TPR和TNR应该很高,但FPR和FNR应该非常低。
智能型号: TPR、TNR、FPR、FNR
愚蠢的模型: TPR、TNR、FPR、FNR的其他组合
有些人可能主张不能平等地照顾所有四个比率。 因为最终没有完美的模型。 那我该怎么办?
是的,那是真的。 因此,我们必须建立模型,记住领域。 有些领域要求将特定比率作为主要优先事项,即使其他比率不好也是如此。 例如,在癌症的诊断中,我们不能不惜一切代价放过阳性患者。 因此,应该使TPR保持在最大值,使FNR保持在接近0的水平。 因为即使我们预测健康的患者会被诊断,他也可以进行进一步的检查。

正确性
精度是那个字面的意思,表示模型的精度。
正确性=正确的预测/总预测
通过使用混淆矩阵,精度=(TP TN)/(TP TN FP FN )
正确性是我们可以使用的最简单的性能指标之一。 但是,正确性有时会给模型带来错误的幻想,因此必须在决定是否使用正确性之前了解要使用的数据集和算法。在讨论准确度的失败事例之前,让我先介绍两种数据集。
平衡:包含所有标签/类别几乎相等的条目的数据集。 例如,1000个据点中,600个为正,400个为负。
不平衡:包含偏向特定标签/类别的条目分布的数据集。 例如,在1000个项目中,990个项目是积极类别,10个项目是消极类别。
非常重要:处理不平衡的测试集时,不要使用正确性作为测量值。
为什么?
假设有一组不平衡的测试,其中包含990( ve )和10(-ve )的1000个条目。 最终,你用某种方法最终做出了坏模型。 这个模型总是为了列车的不平衡而预测“ve”。 现在,在预测测试集标签时,总是预测为“ve”。 因此,可以从1000个测试设定点得到1000个“ve”预测。 然后你的正确性就来了
990/1000=99%
哇! 太棒了! 很高兴看到这样优秀的正确性得分。
但是,你应该知道确实不好,因为模型总是预测“ve”标签。
非常重要:同样,不能返回概率得分并比较两个具有相同正确性的模型。