分类模型评估指标可视化

分类模型评估指标仪表盘

通过交互式图表与详细说明,一站式掌握分类模型核心指标。

1. 交互式混淆矩阵

拖动滑块模拟不同的模型预测结果,观察各项指标的变化。

TP
50
FP
10
FN
5
TN
100

准确率 (Accuracy):

精确率 (Precision):

召回率 (Recall/TPR):

F1-Score:

假正例率 (FPR):

2. 精确率 vs 召回率

这两个指标通常是负相关的:提高一个往往会降低另一个。

3. ROC 曲线

黄色的点会根据左侧滑块实时变化,代表当前指标在ROC空间中的位置。

指标详解与业务案例

基础概念:分类与混淆矩阵

分类模型的目标是预测离散的类别标签,最常见的是二元分类,我们将类别标记为 1 (正例)0 (负例)

混淆矩阵是评估模型性能的基础,它对比了模型的预测结果与真实标签:

预测为正例预测为负例
实际为正例TP (真正例)FN (假负例)
实际为负例FP (假正例)TN (真负例)
  • TP (True Positive): 预测正确,成功识别出正例 (如: 识别出欺诈交易)。
  • FP (False Positive): 误报,将负例当成正例 (如: 将正常交易误判为欺诈)。
  • FN (False Negative): 漏报,未能识别出正例 (如: 漏掉了真实的欺诈交易)。
  • TN (True Negative): 预测正确,成功识别出负例 (如: 将正常交易判断为正常)。
核心评估指标

准确率 (Accuracy): (TP+TN)/(TP+FP+FN+TN)
整体预测正确的比例。但在样本不均衡时(如99%正常交易,1%欺诈交易)有严重误导性。

精确率 (Precision): TP/(TP+FP)
衡量“查准率”,即预测为正例的样本中,有多少是真的正例。当误报(FP)成本高时(如把正常邮件当垃圾邮件),此指标很重要。

召回率 (Recall): TP/(TP+FN)
衡量“查全率”,即所有真实正例中,有多少被成功找出来了。当漏报(FN)成本高时(如漏诊病人、漏掉欺诈交易),此指标很重要。

F1-Score: 2*(Precision*Recall)/(Precision+Recall)
精确率和召回率的调和平均数,是二者的综合评估指标,尤其适用于样本不均衡场景。

ROC 曲线与 AUC

ROC曲线 (Receiver Operating Characteristic Curve): 横坐标是假正例率(FPR),纵坐标是真正例率(TPR,即召回率)。它展示了模型在所有阈值下的性能。曲线越靠近左上角,模型性能越好。

AUC (Area Under the ROC Curve): ROC曲线下方的面积,取值在0.5到1之间。它衡量模型整体的“排序能力”,即模型将正例排在负例前面的概率。AUC越高,模型区分正负样本的能力越强,是一个不依赖于特定阈值的综合评价指标。

业务真实案例:电商欺诈检测

背景

某电商平台发现大量“羊毛党”注册虚假账号骗取新用户优惠券,造成巨大损失。我们需要建立一个风控模型识别这些欺诈账号。

  • 正例 (1): 欺诈账号 (占比极低,如0.1%)
  • 负例 (0): 真实用户账号

指标权衡

  1. 召回率 (核心指标): 业务首要目标是尽可能抓住所有欺诈账号,减少资金损失。漏掉一个(FN)就是100元的直接亏损,因此FN成本极高,必须追求高召回率。
  2. 精确率 (平衡指标): 在追求高召回率时,可能会误伤真实用户(FP),影响用户体验。因此,在满足召回率KPI的前提下,精确率越高越好,意味着打扰的真实用户越少。
  3. AUC (模型迭代标准): 当算法工程师开发出多个模型时,AUC是评估模型综合区分能力(不依赖特定阈值)的“金标准”。AUC更高的模型通常是更好的选择。
  4. 决策: 最终,业务方会基于AUC最高的模型的ROC曲线,选择一个能平衡“召回率”和“误伤率(FPR)”的业务阈值,并部署上线。
问题反馈