消息中心
暂无新消息通知
查看历史消息
干货 |「论文笔记」用于在线视频理解的高效卷积网络
2019-08-30编辑:极市平台作者:ExtremeMart浏览:5825

来源:AI科技评论@微信公众号 (ID: aitechtalk)
作者:林天威


视频理解算法有很多的应用场景,包括视频推荐、监控分析、人机交互等等。在这些真实的应用场景中,通常对算法的实时性有很高的要求。现有的行为识别方法还未能在分类的准确性和运行速度都达到比较好的效果(双流类的方法效果较好,但光流等步骤使得速度很受限;3D 网络类的方法目前的精度和速度也都还不够理想)。所以在保证分类效果的前提下,提高网络的运行速度是当前一个很重要的研究课题。

针对这个问题,这篇论文笔记主要介绍近期放到 arXiv 上(应该是 ECCV-2018 的投稿文章),来自弗莱堡大学 Thomas Brox 教授实验室的一篇文章「 ECO: Efficient Convolutional Network for Online Video Understanding 」 [1],算法的代码预期开源在 mzolfaghari/ECO-efficient-video-understanding 。ECO 网络仅采用 RGB 图像输入,其基本思路为:对视频均匀采样得到 N 帧图像,对这些图像使用共享的 2D CNN 网络获得一个 2D feature map,再堆叠这些 feature map,用一个 3D CNN 网络得到最后的分类结果。在获得了相近的性能的前提下,ECO 网络比 SOTA 方法要快 10-80 倍。需要注意的是,虽然这篇文章的标题是 online video understanding,但其主要还是在设计一个足够快且好的 action recognition 方法(足够快且好所以就可以用于 online 场景啦)。下面开始介绍文章内容,如有不足烦请指正。

Motivation

这篇文章在 introduction 部分主要提出了两点 motivation:

使用单帧的图像,在很多情况下已经可以获得一个不错的初始分类结果了,而相邻帧间的很多信息都是冗余的。因此,ECO 中在一个时序邻域内仅使用单帧图像。
为了获得长时程的图像帧间的上下文关系,仅仅使用简单的分数融合(aggregation) 是不足够的。因此,ECO 中对较远帧之间采取对 feature map 进行 3D 卷积的方式进行 end-2-end 的融合。

相关工作

可以看出,ECO 的 motivation 还是非常简单直接的,在此基础上设计出来网络也不复杂。那么ECO和之前的行为识别方法有什么区别呢,作者在相关工作一节进行了讨论。

1.大部分 2stream 类方法和所有 3D 卷积类型方法 都是在学习短时程的时序信息,即输入一个连续的 video clip,输出一个分类结果。在 video-level 上,通常是对 video 中选取多个 clip 分别得到分类结果,再进行平均得到最后的分类结果,这样会带来较大的计算开销。

2.一些方法(比如去年 deepmind 的 i3d [2] ) 选择增大输入 clip 的时序长度来获得更长时程的信息,但这样一方面会带来计算开销的提高,另外一方面则还是不能处理较长的视频。

3.一些方法[3][4]采用编码方法来获得 video-level 的表示,但作者表示这样忽略了帧间的信息。

4.与 ECO 最相似的是目前被广泛使用的 TSN [5]网络:

ECO 和 TSN 的相似点:两者都是从 video 中均匀采样固定数量的视频帧,从而来覆盖长时程的时序结构。两者都是end-to-end训练的。
ECO 和 TSN 的不同点:TSN 中直接用 late-fusion 的方式对每个 segment 的结果做融合,而 ECO 中则是进行了 feature map 层面的融合(文中除了 3D 卷积,也采用了 2D 卷积)。此外 ECO 的速度要远快于 TSN。

模型结构

网络结构

file

ECO 网络的基本结构如上图所示,S1-SN 是从视频中采样得到的 N 个 RGB 的 segment。

1.对于每个 segment,采用共享的 2D 卷积子网络file28 大小的 feature map,堆叠后得到一个 N28file

2.对于得到的特征 volume,采用一个 3D 子网络file进行处理,直接输出对应动作类别数目的一维向量。此处file采用了 3D-Resnet18 [6]中的部分层。

如上的两部分,就构建了这篇文章中构建的第一种网络结果 ECO-Lite。除了用 3D 卷积进行融合,还可以同时使用2D卷积,如下图所示,即为 ECO-Full 网络结构。此处多的一个 2D 网络分支file采用的是 BN-Inception 网络中 inception-4a 到最后一个 pooling 层间的部分,最后再采用average-pooling得到video-level的表示,与3D net的结果 concat 后再得到最后的action分类结果。

file

采样策略

介绍完网络结构后,再回过头来介绍一下视频帧的采样方法。在 ECO 中,作者先将一个视频等分为 N 份,再在每份中随机选取一帧作为输入。作者认为这样的随机采样策略可以在训练中引入更多的多样性,并提高泛化能力。

测试

在 TSN 或是 ARTNet 等方法中,测试时通常都会对每段视频进行多次的 cropping 采样以及水平翻转等数据增强,从而增强测试的效果。这使得计算的效率较低,从而难以用于实时场景。

与之相反,ECO 中对于一个视频,只需要计算一次前向就可以获得很好的效果,而不需要进行任何额外的融合或是增强,在效率上面有更好的保证。

在线视频理解

在介绍完网络结构后,作者介绍了在线视频理解这一问题以及将 ECO 应用在这个问题上的方法。在一般情况(offline)下,我们是获得了一整段视频后再做分析处理的。而在 online 情况下,视频是以视频流的形式呈现的,即我们只能获得当前时刻过去的视频。对于这个场景,一般的做法是将当前时刻之前的 N 帧作为一个窗口,输入网络来判断结果。作者认为这样主要有两个缺陷:一是这样会造成长程语义的缺失,二则是可能造成较长的 delay。

因此,作者基于 ECO 提出了以下的 online 处理框架。这个框架中主要维护了两个图像组,分别是存放较旧图像的工作记忆组和存放新的未处理图像的新收图像组。每次预测时,从两组视频中各采样一半来更新工作记忆组,并将其作为网络的输入得到当前的预测结果,将当前的预测结果和平均预测结果进行平均后得到最终的输出。这个框架在工作记忆组和平均输出两个层面保存了较长时程的信息,但同时依旧是以当前的图像为主。可以说是设计的很精巧的一个框架了。

file

下图则可视化的展现了这个过程。

file

实验内容

ECO 在实验中的表现也非常出色,下面选取一些实验内容进行介绍。

基准数据集比较

file

首先是在行为分类的两个常用数据集上进行比较,此处限定了只使用 RGB 图像。可以看出 ECO 在用 Kinetics 预训练的前提下,获得了最好的效果。此外在 Kinetics 和 Something-Something 数据集上,ECO 也获得了很好的效果。

速度-精度比较

file

ECO 的一个主要卖点就是速度快,上表就展示了 ECO 和其他方法的速度/精度性能比较(基于单卡 Tesla P100)。ECO 的右下标表示的是 ECO 的输入帧数 N。可以看出,在获得相近精度的前提下,ECO 的速度要远远快于现有方法。需要注意的是,此处作者使用的是 VPS,即每秒处理的视频数量。很多方法为了获得 video-level 的结果,对于每个视频需要进行多次 inference,而 ECO 只需要进行一次。下图则可视化地展示了速度-精度的效果,ECO 的优势还是很大的。

file

在线视频理解

file

在线视频分类问题通常以 early action recognition 的形式来评估。如上图所示,横轴显示的是可以看到的视频的前百分之几,纵轴则是对应的精度。基于上图的在 J-HMDB 数据集上的实验,可以看出 ECO 在精度上有明显的优势,并且只需要很小一部分视频就可以达到不错的精度。

视频描述生成

file

为了展现 ECO 可以被广泛应用于视频理解领域,作者还用 ECO 提取的特征在 video captioning 任务上做了实验(在 MSVD 数据集上)。将 SOTA 方法(即表中的 SCN)的特征换为 ECO,立马获得了非常显著的效果提升,这也表明了 ECO 的有效性。

论文小结

下面写一些自己的看法。写了这么多,其实 ECO 的核心点其实就是两块:一是与 TSN 方法类似的视频帧采样方法,二是用 3D 卷积来做融合,这点实际上在几年前的一篇 two-stream 网络文章[7]中就采用过(不过[7]中是用于 video clip 内的融合)。所以这篇工作可以说是 直观的 motivation + 简单有效的框架设计 相结合的一篇精彩的工作。优秀的效果同时也离不开没有写出来的大量网络设计方面的工作(从网络结构看,参数量和计算量应该都比较小,不是很深的网络)。文章的写作和绘图等方面也蛮值得自己学习。

ECO 在速度/精度上的良好性能(并且只需要 RGB 图像)应该会使得它之后获得广泛的应用,就像之前的 TSN 和 C3D 一样。期待作者能尽快开源了。

参考文献

[1] Zolfaghari M, Singh K, Brox T. ECO: Efficient Convolutional Network for Online Video Understanding[J]. arXiv preprint arXiv:1804.09066, 2018.[2] Carreira J, Zisserman A. Quo vadis, action recognition? a new model and the kinetics dataset[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 4724-4733.[3] Xu Z, Yang Y, Hauptmann A G. A discriminative CNN video representation for event detection[C]//Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on. IEEE, 2015: 1798-1807.[4] Qiu Z, Yao T, Mei T. Deep quantization: Encoding convolutional activations with deep generative model[C]//CVPR. 2017, 1(3): 4.[5] Wang L, Xiong Y, Wang Z, et al. Temporal Segment Networks for Action Recognition in Videos[J]. arXiv preprint arXiv:1705.02953, 2017.[6] Tran D, Ray J, Shou Z, et al. Convnet architecture search for spatiotemporal feature learning[J]. arXiv preprint arXiv:1708.05038, 2017.
[7] Feichtenhofer C, Pinz A, Zisserman A P. Convolutional two-stream network fusion for video action recognition[J]. 2016.



推荐文章

ETP:精确时序动作定位

CVPR 2018 | 视频分析的非局部(non-local) 神经网络模块,CMU与Facebook AI研究室视频分类识别新贡献

分类:技术内容
0
请先 登录再进行评论!
全部评论 (0)
暂无评论
ExtremeMart
1976
获赞
2631
文章
作者文章
1
[Attention优化][2w字]🔥原理&图解: 从Online-Softmax到FlashAttention V1/V2/V3
2
YOLO v9 来了!
3
视觉类表面缺陷检测项目相关技术总结
4
探索表格转文本方法对使用领域混合数据增强基于大语言模型的问答系统的影响
0
0
海量数据集、课程干货免费下载!真实场景项目实战!
一键GO
关闭

深圳SEO优化公司崇州公司网站优化谷歌网站优化怎么做荆门品牌网站优化公司排名大余网站关键词优化长春网站关键字优化学院网站优化方案和策略钟祥市网站关键词排名优化报价如何优化推广网站广告网站关键字优化查询盐城网站优化怎么弄优化公司网站细致云速捷给力中小企业网站优化推广方案怎样对网站进行SEO优化什么主题的网站好优化海淀seo网站优化哪家好企业网站排名优化到首页多久传统行业网站优化方案企业网站排名软件度智能优化邳州网站优化推广工作室朔州企业网站怎么优化荆门本地网站优化网站的站外优化深圳企业网站推广优化珠海电器网站优化如何龙岩网站优化赤壁网站优化哪家好潮州网站首页关键词优化排名谷歌优化用什么样的网站好佛山优化网站价格网站优化工作职责歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化