准确率、召回率、F-Measure等指标的理解

=Start=

缘由:

在做数据分析的时候应该是绕不开这几个评价指标的,但是我之前还真的是不太懂。。。抽时间找点资料学习一下。苦练基本功!

正文:

参考解答:
1、准确率与召回率(Precision & Recall)

准确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。

而召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。

其实就是分母不同,一个分母是预测为正的样本数,另一个是原来样本中所有的正样本数。

在信息检索领域,准确率和召回率又被称为查准率和查全率:

(准确率) 查准率=检索出的相关信息量 / 检索出的信息总量
(召回率) 查全率=检索出的相关信息量 / 系统中的相关信息总量

=

假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,系统查找出50个,其中只有40个是真正的正样本,计算上述各指标。

TP: 将正类预测为正类数 40
FN: 将正类预测为负类数 20
FP: 将负类预测为正类数 10
TN: 将负类预测为负类数 30

  • 精确率(accuracy)= 预测对的/所有= (TP+TN)/(TP+FN+FP+TN) = 70%
  • 准确率(precision)= TP/(TP+FP)= 80%
  • 召回率(recall)= TP/(TP+FN)= 2/3

召回率 (Recall):正样本有多少被找出来了(召回了多少)。

准确率 (Precision):你认为的正样本,有多少猜对了(猜的准确性如何)。

两者取值在0和1之间,数值越接近1,查准率或查全率就越高。

2、综合评价指标(F-Measure)

P和R指标有时候会出现的矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F-Measure(又称为F-Score)。

F-Measure是Precision和Recall加权调和平均

F = (a*a + 1)PR / a*a*(P+R)

当参数α=1时,就是最常见的F1,也即:

F1 = (2*P*R) / (P+R)

可知F1综合了P和R的结果,当F1较高时则能说明试验方法比较有效。

参考链接:

=END=

声明: 除非注明,ixyzero.com文章均为原创,转载请以链接形式标明本文地址,谢谢!
https://ixyzero.com/blog/archives/4416.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注