召回率与准确率详解
召回率与准确率详解
一、概述
数据挖掘、机器学习和推荐系统中的评测指标,通常有以下三种:
(一) 准确率(Precision)
(二) 召回率(Recall)
(三) F值(F-Measure)
在机器学习、数据挖掘、推荐系统完成建模之后,需要对模型的效果做评价。
二、详解
混淆矩阵:
True Positive(真正,TP):将正类预测为正类数
True Negative(真负,TN):将负类预测为负类数
False Positive(假正,FP):将负类预测为正类数误报 (Type I error)
False Negative(假负,FN):将正类预测为负类数→漏报 (Type II error)
|
预 测 类 别 |
|||
实 际 类 别 |
|
YES |
NO |
SUM |
YES |
TP |
FN |
P(实际为YES) |
|
NO |
FP |
TN |
N(实际为NO) |
|
SUM |
P’ (被分为YES) |
N’ (被分为NO) |
P+N |
(一) 准确率(Accuracy)
计算公式:
(二) 错误率(Error Rate)
计算公式:
其中,Error Rate = 1 – ACC
(三) 灵敏度(Sensitive)
计算公式:
表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力。
(四) 特效度(specificity)
计算公式:
表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力。
(五) 精确率、精度(precision)
计算公式:
表示被分为正例的示例中实际为正例的比例。
(六) 召回率(recall)
计算公式:
召回率与灵敏度是一样的。
(七) 综合评价指标(F-Measure)
计算公式:
当参数a为1时最为常见
即:
可知F1综合了P和R的结果,当F1较高时则能说明试验方法比较有效。
(八)
1、ROC曲线:
ROC(Receiver Operating Characteristic)曲线是以假正率(FP_rate)和假负率(TP_rate)为轴的曲线,ROC曲线下面的面积我们叫做AUC,如图1-1所示:
|