首发于深度学习日常

评价指标|precision recall ROC AUC | mAP |人脸识别指标 | 图像质量评价指标

荔七加er

喜欢就多赞赞我哦

1. 分类

当一个分类器训练好了之后，上图中的那个红色和蓝色的小山就已经确定下来了，但是TPR和FPR是不确定的，因为它们可以根据选择的阈值发生变化。当我们不断地去调整阈值，就会得到不同的点，将这些点连起来就得到了ROC曲线。所以ROC曲线是反应红色和蓝色小山分布情况的一条曲线。一个分类器分类能力越强，那么这两个小山就离得越远。 ——引用自参考链接4

AUC表示ROC曲线下的面积，area under the ROC Curve，如下图阴影区域的面积即为AUC。AUC的一种解释就是模型对一个随机正样本的得分高于一个随机负样本得分的概率。

AUC取值范围从0到1，值越大表示分类器效果越好，0表示预测全错，1表示预测全对。AUC=1时，是个完美分类器，表示该模型至少存在一个阈值能做出全对的预测，所有的正例都排在负例的前面。AUC=0.8，表示有百分之八十的正例排在负例的前面。AUC<=0.5，模型就没啥价值了。

AUC有两个特性：与尺度无关，它表示的是预测结果排名的好坏，如果对所有样本的概率值乘上2，AUC还是一样的；与分类阈值无关。

1.5 ROC曲线 vs PR曲线

ROC曲线有一个特性：当测试集中的正负样本分布发生变化了，ROC曲线可以保持不变。在实际的数据集中经常会出现类不平衡现象。下图是ROC曲线和PR曲线的对比：

(a)和(c)为ROC曲线，(b)和(d)为Precision-Recall曲线。(a)和(b)展示的是在样本均衡的测试集上的结果，(c)和(d)是将测试集中负样本的数量增加到原来的10倍后的结果。

可以明显的看出，ROC曲线基本没变，而PR曲线变化较大。

我们的测试数据集中的反例数目远远多于正例的数目，假设负样本:正样本=1000:10．在这种情况下，当阈值为最大时，真正率和假正率还是都为０，随着我们不断调小阈值真正率和假正率还是在不断提高, 当阈值最小时真正率和假正率达到最大．因此ROC曲线没有很好地体现出样本类别分布不平衡对模型产生的影响，甚至导致对模型性能有错误的解释．

样本不平衡时，负样本有很多，这导致FPR的增长不明显，FP的大幅增长只能换来FPR的微小改变，所以虽然大量负例被错判成正例，在ROC曲线上却无法直观地看出来，ROC曲线会呈现一个过分乐观的效果估计。

举个栗子看看~

数据集正负样本比例1:1，下表是模型采用某一阈值时的分类结果，此时TPR=Recall=90/(90+10)=90%, FPR=60/(60+40)=60%，precision=90/(90+50)=64%

当负样本变为10倍时，预测的概率分布不会有很大变化，此时TPR还是等于90/(90+10)=90%，FPR=600/(600+400)=60%，precision=90/(90+600)=13%

上面的例子中，TPR和FPR没什么变化，而precision却出现了明显的下降，所以当样本不平衡时，在ROC曲线上可能反应不出来，而在PR曲线上可以看到明显变化。

当测试集类别分布大致均衡的时候可以用ROC曲线，当类别分布非常不均衡的时候采用PR曲线。PR曲线的两个指标都聚焦于正例，类别不平衡问题中主要关心正例，所以在此情况下PR曲线更优。

1.6 计算confusion matrix的代码库

pretty-print-confusion-matrix

示例图：

2. 检测

2.1. mAP

mAP：average of AP for each class

AP: average of precision at different recalls, PR曲线下的面积

TP: 与ground truth的IOU > 0.5

FP: 与ground truth的IOU <= 0.5，同一个ground truth的多余检测框

FN: 没有检测到的ground truth

mAP@.5：IOU>0.5认为是TP

mAP@.5:.95：IOU分别取0.5,0.55,0.6,0.65 ... 0.95，得到多个mAP，然后取平均

每个预测的box都会有一个关于某个类别的置信度，首先按照confidence从高到低的顺序进行排序，然后计算P = TP / (TP + FP)和R = TP / (TP + FN) for each possible rank k = 1 up to the number of predictions. So now you have a (P, R) for each rank those P and R are the "raw" Precision-Recall curve. To compute the interpolated P-R curve foreach value of R you select the maximum P that has a corresponding R' >= R.

有两种方式来采样PR曲线上的点，在VOC2010以前，select the maximum P obtained for any R' >= R, which R belongs to 0, 0.1, ..., 1 (eleven points)，AP就是这11个precision的平均值。在VOC2010及以后，still select the maximum P for any R' >= R， while R belongs to all unique recall values (include 0 and 1)。AP就是PR曲线下的面积。Notice that in the case that you don't have a value of P with Recall above some of the thresholds the Precision value is 0.

计算示例：

假设对于aeroplane类别，有如下输出，BB表示预测的box的序号，一共有7个ground truth，除了检测到的五个以外，还有两个没被检测到，也就是FN=2，BB3是BB1的重复检测。从下表中可以看出，TP有5个(BB1, BB2, BB6, BB9, BB10)，FP也有5个(BB3, BB4, BB5, BB7, BB8)。

	BB	confidence	对应的gt的序号
1	BB1	0.9	1
2	BB2	0.9	2
3	BB3	0.8	1
4	BB4	0.7	无gt对应
5	BB5	0.7	无gt对应
6	BB6	0.7	3
7	BB7	0.7	无gt对应
8	BB8	0.7	无gt对应
9	BB9	0.7	4
10	BB10	0.7	5

然后就可以按照confidence的排序给出各处的PR值，(上表已经是按照confidence排序的)，计算结果如下：

rank1    precision=1/1=1         recall=1/7=0.14
rank2    precision=2/2=1         recall=2/7=0.29
rank3    precision=2/3=0.67      recall=2/7=0.29
rank4    precision=2/4=0.5       recall=2/7=0.29
rank5    precision=2/5=0.4       recall=2/7=0.29
rank6    precision=3/6=0.5       recall=3/7=0.43
rank7    precision=3/7=0.43      recall=3/7=0.43
rank8    precision=3/8=0.38      recall=3/7=0.43
rank9    precision=4/9=0.44      recall=4/7=0.57
rank10   precision=5/10=0.5      recall=5/7=0.71

计算出来各个PR值以后，就可以计算AP了，

VOC2010之前，recall选取0, 0.1,...,1, 我们计算的PR值，并没有正好在recall=0处有precision，所以取recall>=0时的precision的最大值，recall=0.1时，取recall>=0.1时的precision的最大值，同理直到recall=1。所有这11处的precision分别为1, 1, 1, 0.5, 0.5, 0.5, 0.5, 0.5, 0, 0, 0, 此时aeroplane类别的AP为 5.5/11=0.5.

VOC2010及以后，recall选取0, 0.14, 0.29, 0.43, 0.57, 0.71, 1，同样是取recall>=0, 0.14, ..., 1的precision的最大值，分别为1, 1, 1, 0.5, 0.5, 0.5, 0，此时aeroplane类别的AP为 (0.14-0)*1 + (0.29-0.14)*1 + (0.43-0.29)*0.5 + (0.57-0.43)*0.5 + (0.71-0.57)*0.5 + (1-0.71)*0= 0.5.