通过交互式图表与详细说明,一站式掌握分类模型核心指标。
拖动滑块模拟不同的模型预测结果,观察各项指标的变化。
准确率 (Accuracy):
精确率 (Precision):
召回率 (Recall/TPR):
F1-Score:
假正例率 (FPR):
这两个指标通常是负相关的:提高一个往往会降低另一个。
黄色的点会根据左侧滑块实时变化,代表当前指标在ROC空间中的位置。
分类模型的目标是预测离散的类别标签,最常见的是二元分类,我们将类别标记为 1 (正例) 和 0 (负例)。
混淆矩阵是评估模型性能的基础,它对比了模型的预测结果与真实标签:
| 预测为正例 | 预测为负例 | |
|---|---|---|
| 实际为正例 | TP (真正例) | FN (假负例) |
| 实际为负例 | FP (假正例) | TN (真负例) |
准确率 (Accuracy): (TP+TN)/(TP+FP+FN+TN)
整体预测正确的比例。但在样本不均衡时(如99%正常交易,1%欺诈交易)有严重误导性。
精确率 (Precision): TP/(TP+FP)
衡量“查准率”,即预测为正例的样本中,有多少是真的正例。当误报(FP)成本高时(如把正常邮件当垃圾邮件),此指标很重要。
召回率 (Recall): TP/(TP+FN)
衡量“查全率”,即所有真实正例中,有多少被成功找出来了。当漏报(FN)成本高时(如漏诊病人、漏掉欺诈交易),此指标很重要。
F1-Score: 2*(Precision*Recall)/(Precision+Recall)
精确率和召回率的调和平均数,是二者的综合评估指标,尤其适用于样本不均衡场景。
ROC曲线 (Receiver Operating Characteristic Curve): 横坐标是假正例率(FPR),纵坐标是真正例率(TPR,即召回率)。它展示了模型在所有阈值下的性能。曲线越靠近左上角,模型性能越好。
AUC (Area Under the ROC Curve): ROC曲线下方的面积,取值在0.5到1之间。它衡量模型整体的“排序能力”,即模型将正例排在负例前面的概率。AUC越高,模型区分正负样本的能力越强,是一个不依赖于特定阈值的综合评价指标。
某电商平台发现大量“羊毛党”注册虚假账号骗取新用户优惠券,造成巨大损失。我们需要建立一个风控模型识别这些欺诈账号。