YOLOv1-v3系列进化史回顾[AI算法库]
关注:决策智能与机器学习,深耕AI脱水干货
作者 / McGL
来源 | 知乎
授权转载
You only look once (YOLO)是一个针对实时处理的目标检测系统。在本文中,我们将介绍 YOLO、 YOLOv2、 YOLO9000和YOLOv3。对于那些只对 YOLOv3感兴趣的人,请直接转到文章的底部。下面是 YOLO 网站提供的准确率和速度比较。
YOLO
让我们从下面的测试图片开始说起。
YOLO 检测到的物体:
Grid cell
为了便于讨论,我们裁剪了原始照片。YOLO 将输入图像划分为S x S grid。每个grid cell只预测一个物体。例如下面的黄色grid cell尝试预测其中心(蓝点)位于grid cell内的物体“人”。
每个grid cell预测一个固定数量的boundary boxes。在此示例中,黄色grid cell产生了两个boundary box预测(蓝色框)来定位人所在的位置。
但是,单物体规则限制了检测到的物体之间的距离。因为这一点,YOLO 确实对物体之间最多可以靠多近有一些限制。比如下面的图片,有9个圣诞老人在左下角,但 YOLO 只能检测到5个。
对于每个grid cell,
它预测B个boundary box,每个box有一个box confidence score,
无论boxes B是多少个,它都只检测一个物体,
它预测C类条件概率(每个类别一个此物品类别的可能性)
为了评估 PASCAL VOC,YOLO 使用了7x7 grids(SxS)、2个boundary boxes(B)和20个类(C)。
让我们了解更多的细节。每个boundary box包含5个元素: (x,y,w,h)和一个box confidence score。confidence score反映了框中包含物体的可能性(objectness)以及boundary box的精确度。我们用图像的宽度和高度将bounding box的宽度 w 和高度 h normalize。x和y 是相应cell的offset。因此,x,y,w 和 h 都在0和1之间。每个cell有20个类条件概率。 类条件概率是被检测物体属于特定类别的概率(每个cell中,每个类别有一个概率)。因此,YOLO 预测结果的shape是(S,S,Bx5 + c) = (7,7,2x5 + 20)=(7,7,30)。
YOLO的主要概念是创建一个CNN网络来预测一个(7,7,30)张量。它使用 CNN 网络将空间维度降低到7x7,每个位置有1024个输出channel。YOLO用两个全连接层线性回归产生7x7x2个boundary box的预测(下面中图)。为了做出最后的预测,我们保留那些具有高box confidence scores(大于0.25)的boxes作为最后的预测(右图)。
每个预测box的class confidence score计算公式如下:
它同时度量分类和定位(物体所在的位置)的confidence。
我们很容易地把那些得分项和概率项混淆。这里有一些数学定义,供你将来参考。
猿员儿: 我也是这个问题,请问解决了吗
shenyuegu1996: 能给一下论文名字吗 谢谢大佬
So what」¢: 您好,求一下叶强博士的笔记,你发的那个链接下载不了啦
akeqiqibaba: 有的图片裂了,看不到好难受
w0deyida: 调用存好的网络的时候,现实Data Loss:checksum not match…