首发于 arXiv每日更新

arXiv每日更新-20220520（今日关键词：transformer, segmentation, classification)

arXiv每日更新-20220520（今日关键词：transformer, segmentation, classification)

Make The World Wonderful

三维视觉 5篇

* A Comparative Study of Feature Expansion Unit for 3D Point Cloud Upsampling
* 链接: https://arxiv.org/abs/2205.09594
* 作者: Qiang Li,Tao Dai,Shu-Tao Xia
* 摘要: 最近，深度学习方法在3D Point Cloud Up采样中取得了巨大成功。在这些方法中，提出了许多特征扩展单元，以完成点的末尾扩展。在本文中，我们通过理论分析和定量实验比较了各种特征扩展单元。我们表明，大多数现有功能扩展单元都独立处理每个点功能，同时忽略了不同点之间的特征交互。此外，我们灵感来自图像超分辨率的UP抽样模块以及点云上动态图CNN的最新成功，我们提出了一个名为ProdeDgeshle的新型特征扩展单元。实验表明，我们所提出的方法可以比以前的功能扩展单元实现可观的改进。

[推荐] * Diversity Matters: Fully Exploiting Depth Clues for Reliable Monocular 3D Object Detection

* 链接: https://arxiv.org/abs/2205.09373
* 作者: Zhuoling Li,Zhan Qu,Yang Zhou,Jianzhuang Liu,Haoqian Wang,Lihui Jiang
* 其他: This paper has been accepted as an oral presentation of CVPR2022
* 摘要: 作为本质上不适的问题，单图像的深度估计是单眼3D对象检测（M3OD）的最具挑战性的部分。许多现有的方法依赖于先入为主的假设来弥合单眼图像中缺少的空间信息，并为每个感兴趣的对象预测唯一的深度值。但是，这些假设在实际应用中并不总是存在。为了解决这个问题，我们提出了一个深度解决系统，该系统可以充分探索M3OD中子任务的视觉线索，并为每个目标的深度生成多个估计。由于深度估计本质上取决于不同的假设，因此它们提出了不同的分布。即使某些假设崩溃了，其余假设的估计仍然可靠。此外，我们制定了深度选择和组合策略。该策略能够消除由崩溃的假设引起的异常估计，并将其余估计自适应地结合到单个估计中。这样，我们的深度解决系统变得更加精确和强大。从M3OD的多个子任务中利用线索，并且在不引入任何额外信息的情况下，我们的方法超过了当前的最佳方法，在Kitti 3D对象检测基准中相对较高的测试级别相对超过20％，同时仍保持实时效率。

* Mip-NeRF RGB-D: Depth Assisted Fast Neural Radiance Fields
* 链接: https://arxiv.org/abs/2205.09351
* 作者: Arnab Dey,Yassine Ahmine,Andrew I. Comport
* 摘要: 神经场景表示，例如神经辐射场（NERF），基于训练多层感知器（MLP），使用一组具有已知姿势的彩色图像。现在，越来越多的设备产生RGB-D信息，这对于各种任务非常重要。因此，本文的目的是通过将深度信息与颜色图像结合在一起，研究这些有希望的隐式表示可以进行哪些改进。特别是，最近建议的MIP-NERF方法使用圆锥形的圆丝而不是射线进行音量渲染，它使人们可以考虑具有距离距离摄像头中心距离的像素的不同区域。所提出的方法还模拟了深度不确定性。这允许解决基于NERF的方法的主要局限性，包括提高几何形状的准确性，减少伪像，更快的训练时间和缩短预测时间。实验是在众所周知的基准场景上进行的，并且比较在场景几何形状和光度重建中的准确性提高，同时将训练时间减少了3-5次。

* 3DConvCaps: 3DUnet with Convolutional Capsule Encoder for Medical Image Segmentation
* 链接: https://arxiv.org/abs/2205.09299
* 作者: Minh Tran,Viet-Khoa Vo-Ho,Ngan T.H. Le
* 其他: Accepted to ICPR 2022
* 摘要: 卷积神经网络（CNN）已在医学图像分割方面取得了有希望的结果。但是，CNN需要大量的培训数据，并且无法处理姿势和对象的变形。此外，它们的合并层倾向于丢弃重要信息，例如位置以及CNN对旋转和仿射转化敏感。胶囊网络是一种最新的新体系结构，通过用动态路由和卷积步伐替换池层来实现零件整体表示学习的更好的鲁棒性，这在流行任务（例如数字分类和对象细分）上显示了潜在的结果。在本文中，我们提出了一个带有卷积胶囊编码器（称为3DConvCaps）的3D编码器网络，以学习具有卷积层的低级特征（短距离注意），同时用胶囊建模更高级别的特征（远程依赖）层。我们在包括ISEG-2017，Hippocampus和Cardiac在内的多个数据集上进行的实验表明，我们的3D 3DConvcaps网络的表现非常优于先前的胶囊网络和3D-UNET。我们进一步进行了在卷积层和胶囊层的各种配置下在合同和扩展路径的各种配置下进行网络效率和分割性能的消融研究。

* MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D Scenes
* 链接: https://arxiv.org/abs/2205.09248
* 作者: Anton Ratnarajah,Zhenyu Tang,Rohith Chandrashekar Aralikatti,Dinesh Manocha
* 其他: More results and source code is available at this https URL
* 摘要: 我们提出了一个基于网格的神经网络（MESH2IR），以生成使用网格代表的室内3D场景的声脉冲响应（IRS）。国税局用于在交互式应用程序和音频处理中创建高质量的声音体验。我们的方法可以处理具有任意拓扑结构（2K -3M三角形）的输入三角网格。我们提出了一种新颖的训练技术，可以使用能量衰减缓解培训网格2IR并突出其优势。我们还表明，使用我们提出的技术对IRS进行预处理的培训MESH2IR可显着提高IR发电的准确性。我们通过使用图形卷积网络将3D场景网格转换为潜在空间，从而降低了网格空间中的非线性性。我们的网格2IR比CPU上的几何声学算法快200倍以上，并且在给定的室内3D场景中，在NVIDIA GEFORCE RTX 2080 TI GPU上可以在NVIDIA GEFORCE RTX 2080 TI GPU上产生10,000多个IRS。声学指标用于表征声学环境。我们表明，从我们的网格2IR中预测的IRS的声学指标与地面真相相匹配，误差少于10％。我们还强调了Mesh2ir对音频和语音处理应用的好处，例如语音覆盖和语音分离。据我们所知，我们的是第一种基于神经网络的方法，可以实时预测给定的3D场景网格。

视频处理 3篇

* Support-set based Multi-modal Representation Enhancement for Video Captioning
* 链接: https://arxiv.org/abs/2205.09307
* 作者: Xiaoya Chen,Jingkuan Song,Pengpeng Zeng,Lianli Gao,Heng Tao Shen
* 摘要: 视频字幕是一项具有挑战性的任务，需要对视觉场景进行彻底理解。现有方法遵循典型的一对一映射，该映射集中在有限的样本空间上，同时忽略样品之间的内在语义关联，从而产生刚性和非信息表达式。为了解决这个问题，我们提出了一个新颖而灵活的框架，即基于支持集的多模式表示增强（SMRE）模型，以在样本之间共享的语义子空间中开采丰富的信息。具体而言，我们提出了一个支持集构建（SC）模块，以构建一个支持集，以学习样品之间的基本连接并获得与语义相关的视觉元素。在此过程中，我们设计一个语义空间转换（SST）模块，以自我监督的方式约束相对距离和管理多模式交互。 MSVD和MSR-VTT数据集的广泛实验表明，我们的SMRE实现了最先进的性能。

* Free Lunch for Surgical Video Understanding by Distilling Self-Supervisions
* 链接: https://arxiv.org/abs/2205.09292
* 作者: Xinpeng Ding,Ziwei Liu,Xiaomeng Li
* 摘要: 自我监督的学习在视力和NLP方面取得了巨大进展。最近，它也引起了人们对X射线，CT和MRI等各种医学成像方式的广泛关注。现有方法主要集中于构建新的借口自学任务，例如根据医学图像的属性进行重建，方向和掩盖识别。但是，并未完全利用公开可用的自我实施模型。在本文中，我们提出了一个强大而有效的自学框架，用于外科视频理解。我们的主要见解是将知识从大型通用数据集中培训的公开模型中提取知识，以促进对手术视频的自我监督学习。为此，我们首先引入了一种传承语义的培训计划，以获取我们的教师模型，该模型不仅包含了公开可用模型的语义，而且还可以为手术数据提供准确的知识。除了仅具有对比度学习的培训外，我们还引入了一个蒸馏目标，将丰富的学习信息从教师模型转移到手术数据上的自学学习。对两个手术期识别基准的广泛实验表明，我们的框架可以显着提高现有的自我监督学习方法的性能。值得注意的是，我们的框架在低DATA制度下表现出了令人信服的优势。我们的代码可在此HTTPS URL上找到。

* BabyNet: Residual Transformer Module for Birth Weight Prediction on Fetal Ultrasound Video
* 链接: https://arxiv.org/abs/2205.09382
* 作者: Szymon Płotka,Michał K. Grzeszczyk,Robert Brawura-Biskupski-Samaha,Paweł Gutaj,Michał Lipa,Tomasz Trzciński,Arkadiusz Sitek
* 其他: Early accepted for 25th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI) 2022, Singapore
* 摘要: 预测出生时的胎儿体重是围产期护理的重要方面，尤其是在产前管理的背景下，其中包括计划的时机和交付方式。使用产前超声的准确预测重量是具有挑战性的，因为它需要在预怀孕期间特定胎儿身体部位的图像，这由于缺乏羊水引起的图像质量差而难以捕获。结果，依赖标准方法的预测通常会遭受重大错误。在本文中，我们提出了残留变压器模块，该模块扩展了一个基于3D重新连接的网络，用于分析2D+T时空超声视频扫描。我们的端到端方法称为BabyNet，自动预测基于胎儿超声视频扫描的胎儿出生体重。我们使用专用的临床组评估BabyNet，其中包括225胎2D胎儿超声视频，这些视频来自75例在分娩前一天进行的患者。实验结果表明，BabyNet的表现优于几种最先进的方法，并以与人类专家相当的准确性来估算出生时的体重。此外，将人类专家提供的估计值与由BabyNet计算的估计值相结合，可以取得最佳的结果，从而超过了其他任何方法。 BabyNet的源代码可在此HTTPS URL上获得。

医学图像分析 5篇

* Robust and Efficient Medical Imaging with Self-Supervision
* 链接: https://arxiv.org/abs/2205.09723
* 作者: Shekoofeh Azizi,Laura Culp,Jan Freyberg,Basil Mustafa,Sebastien Baur,Simon Kornblith,Ting Chen,Patricia MacWilliams,S. Sara Mahdavi,Ellery Wulczyn,Boris Babenko,Megan Wilson,Aaron Loh,Po-Hsuan Cameron Chen,Yuan Liu,Pinal Bavishi,Scott Mayer McKinney,Jim Winkens,Abhijit Guha Roy,Zach Beaver,Fiona Ryan,Justin Krogue,Mozziyar Etemadi,Umesh Telang,Yun Liu,Lily Peng,Greg S. Corrado,Dale R. Webster,David Fleet,Geoffrey Hinton,Neil Houlsby,Alan Karthikesalingam,Mohammad Norouzi,Vivek Natarajan
* 摘要: 医疗人工智能（AI）的最新进展已提供了可以达到临床专家水平绩效的系统。但是，当在与训练环境不同的临床环境中评估时，这种系统往往会证明次优的“分布式”性能。一种常见的缓解策略是使用特定地点数据为每个临床环境开发单独的系统[1]。但是，这很快变得不切实际，因为医疗数据很耗时，可以注释且昂贵[2]。因此，“数据有效概括”的问题给医学AI开发带来了持续的困难。尽管代表性学习的进展显示出希望，但并未对其好处进行严格的研究，特别是用于分布的设置。为了应对这些挑战，我们提出了RESEDIS，这是一种统一的代表学习策略，以提高医学成像AI的鲁棒性和数据效率。雷雷迪斯使用大规模监督转移学习与自我监督学习的通用组合，几乎不需要特定于任务的自定义。我们研究各种医学成像任务，并使用回顾性数据模拟三个现实的应用程序场景。 RESEDIS表现出明显改善的分布性能，而在强有力的基线上，诊断准确性相对相对提高了11.5％。更重要的是，我们的策略会导致对医学成像AI的强大数据有效的概括，并使用跨任务的1％至33％的重新培训数据匹配强有力的监督基线。这些结果表明，Repedis可以显着加速医学成像AI开发的生命周期，从而为医学成像AI提供了重要的一步，以产生广泛的影响。

* Light In The Black: An Evaluation of Data Augmentation Techniques for COVID-19 CT's Semantic Segmentation
* 链接: https://arxiv.org/abs/2205.09722
* 作者: Bruno A. Krinski,Daniel V. Ruiz,Eduardo Todt
* 摘要: 借助19日的全球大流行，医学图像的计算机辅助诊断引起了很多关注，并且非常需要计算机断层扫描（CT）的语义分割方法。CT的语义分割是COVID-19自动检测的众多研究领域之一，自COVID-19爆发以来，已广泛探索。在这项工作中，我们提出了对不同数据增强技术如何改善有关此问题的编码器神经网络的培训的广泛分析。在五个不同的数据集上评估了二十种不同的数据增强技术。每个数据集通过五倍的交叉验证策略进行了验证，从而导致3,000多个实验。我们的发现表明，空间级别转换是改善有关此问题神经网络的学习最有希望的。

* Semi-Supervised Learning for Image Classification using Compact Networks in the BioMedical Context
* 链接: https://arxiv.org/abs/2205.09678
* 作者: Adrián Inés,Andrés Díaz-Pinto,César Domínguez,Jónathan Heras,Eloy Mata,Vico Pascual
* 摘要: 移动和嵌入深层卷积神经模型的边缘应用的开发有可能改变生物医学。但是，大多数深度学习模型都需要智能手机或边缘设备中无法使用的计算资源；可以通过紧凑的模型面临的问题。这种模型的问题在于，它们至少通常不如更大的模型准确。在这项工作中，我们研究了如何通过半监督学习技术来解决这种局限性。我们进行了几项统计分析，以比较使用半监督学习方法训练深层紧凑型体系结构的性能，以在生物医学背景下解决图像分类任务。特别是，我们探索了三个紧凑型网络家族，以及两个半监督学习技术的家庭，用于10项生物医学任务。通过将半监督的学习方法与紧凑的网络相结合，可以获得与标准尺寸网络相似的性能。通常，在将数据蒸馏与混合网和与Resnet-18结合使用时，获得了最佳结果。同样，通常，NAS网络比手动设计的网络和量化网络获得更好的结果。本文介绍的工作表明，将半监督方法应用于紧凑网络的好处；这使我们能够创建紧凑型型号，这些模型不仅与标准尺寸型号一样精确，而且更快，更轻。最后，我们开发了一个库，该库通过半监督的学习方法简化了紧凑型模型的构建。

* CORPS: Cost-free Rigorous Pseudo-labeling based on Similarity-ranking for Brain MRI Segmentation
* 链接: https://arxiv.org/abs/2205.09601
* 作者: Can Taylan Sari,Sila Kurugol,Onur Afacan,Simon K. Warfield
* 摘要: 大脑磁共振图像（MRI）的分割对于分析人脑和各种脑部疾病的诊断至关重要。耗时和容易出错的手动描述程序的缺点旨在通过基于ATLAS和监督的机器学习方法来缓解，这些方法在计算上是计算强度的，而后一种方法缺乏足够多的标记数据。通过这种动机，我们提出了Corps，这是建立在基于ATLAS的新型伪标记方法的半监督分割框架和3D深卷积神经网络（DCNN），用于3D脑MRI分割。在这项工作中，我们建议基于基于局部强度的相似性得分与现有标记的图像集的基于局部强度的相似性评分，并使用基于ATLAS的新型标签融合方法生成专家级伪标记，以在订单中为未标记的图像集。然后，我们建议训练3D DCNN，以结合专家和伪标记的图像，用于每种解剖结构的二进制分割。提出了二进制分割方法，以避免在有限和不平衡数据上使用多级分割方法的性能不佳。这还允许使用过滤器的数量和保留内存资源的数量来采用轻巧有效的3D DCNN，以在全尺度和完整分辨率3D MRI卷上训练二进制网络，而不是2D/3D补丁或2D片。因此，所提出的框架可以将每个维度的空间连续性封装并增强上下文意识。实验结果表明，所提出的框架优于基线方法，既有定性和定量，却没有手动标记的额外标记成本。

* Discovering Dynamic Functional Brain Networks via Spatial and Channel-wise Attention
* 链接: https://arxiv.org/abs/2205.09576
* 作者: Yiheng Liu,Enjie Ge,Mengshen He,Zhengliang Liu,Shijie Zhao,Xintao Hu,Dajiang Zhu,Tianming Liu,Bao Ge
* 其他: 12 pages,6 figures, submitted to 36th Conference on Neural Information Processing Systems (NeurIPS 2022)
* 摘要: 使用深度学习模型来识别功能磁共振成像（fMRI）中的功能性脑网络（FBN）最近引起了人们的兴趣越来越高。但是，大多数现有的工作着重于检测来自整个fMRI信号的静态FBN，例如基于相关的功能连接性。滑动窗口是一种捕获FBN动力学的广泛使用的策略，但在每个时间步骤中表示内在的功能交互动力学方面仍然有限。通常需要手动设置FBN的数量。由于大脑中动态相互作用的复杂性，传统的线性和浅模型不足以识别每个时间步骤中的复杂和空间重叠的FBN。在本文中，我们提出了一种新颖的空间和渠道注意自动编码器（SCAAE），以动态发现FBN。 SCAAE的核心思想是将注意机制应用于FBNS构造。具体而言，我们设计了两个注意力模块：1）空间关注（SA）模块以发现空间域中的FBN和2）一个通道注意（CA）模块，以权衡自动选择FBN的通道。我们在ADHD200数据集上评估了我们的方法，结果表明，所提出的SCAAE方法可以有效地恢复每个fMRI时间步长的FBN的动态变化，而无需使用滑动窗口。更重要的是，我们提出的混合注意模块（SA和CA）并未强制以先前方法为主性和独立性的假设，因此提供了一种新颖的方法来更好地理解动态功能性脑网络。

Transformer 6篇

* VNT-Net: Rotational Invariant Vector Neuron Transformers
* 链接: https://arxiv.org/abs/2205.09690
* 作者: Hedi Zisling,Andrei Sharf
* 其他: arXiv admin note: text overlap with arXiv:2104.12229 by other authors
* 摘要: 在机器学习中学习3D点集是机器学习中的一个重要且具有挑战性的问题。通过旋转不变体系结构，3D点云神经网络免除了需要规范的全球姿势和所有可能旋转的详尽数据增强。在这项工作中，我们通过将最近引入的矢量神经元与自发层相结合以构建点云矢量神经元变压器网络（VNT-NET）来引入旋转不变的神经网络。载体神经元以其在代表SO（3）动作中的简单性和多功能性而闻名，从而将其纳入了共同的神经操作中。同样，变压器体系结构也获得了流行，最近通过直接应用图像斑块的序列并实现了出色的性能和收敛性，从而获得了图像的成功。为了使两者受益，我们主要通过显示如何适应多头注意层以符合向量神经元操作来结合这两种结构。通过这种适应性，注意层变得如此（3），整体网络变为旋转不变。实验表明，我们的网络有效地以任意姿势处理3D点云对象。我们还表明，与相关的最先进方法相比，我们的网络可以达到更高的准确性，并且由于常见分类和分割任务的少量超参数，需要更少的培训。

* A graph-transformer for whole slide image classification
* 链接: https://arxiv.org/abs/2205.09671
* 作者: Yi Zheng,Rushin H. Gindra,Emily J. Green,Eric J. Burks,Margrit Betke,Jennifer E. Beane,Vijaya B. Kolachalama
* 摘要: 深度学习是整个幻灯片图像（WSI）分析的强大工具。通常，在进行监督深度学习时，WSI分为小斑块，训练有素，结果汇总以估计疾病等级。但是，基于斑块的方法在训练过程中引入标签噪声，假设每个贴片都独立于与WSI相同的标签，并且忽略了在疾病分级中显着的总体WSI级信息。在这里，我们提出了一个图形转换器（GT），该图形融合了WSI的基于图的表示和视力变压器用于处理病理学图像（称为GTP）以预测疾病等级的图像。我们从临床蛋白质组学分析联盟（CPTAC），国家肺筛查试验（NLST）和癌症基因组图集（TCGA）（TCGA）中选择了$ 4,818 $ WSIS，并使用GTP区分腺癌（LUAD）和鳞状细胞癌（LSCC）（LSCC）（LSCC）（LSCC）来自相邻的非癌组织（正常）。首先，使用NLST数据，我们开发了一个对比度学习框架来生成特征提取器。这使我们能够计算单个WSI贴片的特征向量，这些贴片用于表示图的节点，然后构建GTP框架。我们对CPTAC数据进行培训的模型在三标签分类方面始终获得高性能（正常与LUAD与LSCC：平均准确性$ = 91.2 $ $ \ $ \ pm $ 2.5 \％\％$ $），基于五倍的交叉验证，并且是平均精度$ = 82.3 $ $ \ pm $ $ $ 1.0 \％$ $ $ $ $ $ $ $ $ $ $ $ $ $。我们还引入了一种基于图形的显着映射技术，称为GraphCam，该技术可以识别与类标签高度关联的区域。我们的发现表明GTP是WSI级分类的可解释和有效的深度学习框架。

* Integral Migrating Pre-trained Transformer Encoder-decoders for Visual Object Detection
* 链接: https://arxiv.org/abs/2205.09613
* 作者: Xiaosong Zhang,Feng Liu,Zhiliang Peng,Zonghao Guo,Fang Wan,Xiangyang Ji,Qixiang Ye
* 其他: 12 pages,5 figures
* 摘要: 现代对象探测器通过将其用作骨干网络来占据预训练的视觉变压器的优势。但是，除了骨干网络外，其他检测器组件（例如检测器头和特征金字塔网络）仍然随机初始化，这阻碍了检测器和预训练模型之间的一致性。在这项研究中，我们建议逐步迁移预先训练的变压器编码器解码器（IMPET）进行对象检测，并构建不仅是“完全预训练”的特征提取操作路径，而且与预训练的模型一致。对现有的基于变压器的检测器的基本改进是双重的：（1）将预训练的变压器解码器嵌入检测器头到探测器头；（2）它从特征提取路径中删除特征金字塔网络。这种改进会显着降低随机初始化参数的比例，并增强检测器的产生能力。 MS Coco数据集的实验表明，始终如一地提高其对应物的AP量约为2.8％。如果没有铃铛和哨子，就可以将少量对象检测的最先进的AP提高到7.6％的AP，显示出明显更高的概括能力。代码将公开可用。

* TRT-ViT: TensorRT-oriented Vision Transformer
* 链接: https://arxiv.org/abs/2205.09579
* 作者: Xin Xia,Jiashi Li,Jie Wu,Xing Wang,Mingkai Wang,Xuefeng Xiao,Min Zheng,Rui Wang
* 摘要: 我们从实际应用的角度重新审视了现有的出色变压器。他们中的大多数甚至不如基本的重新连接系列效率那么高，并且偏离了现实的部署方案。这可能是由于当前的标准测量计算效率，例如FLOPS或参数是单方面的，次优的和对硬件的不敏感的。因此，本文直接将特定硬件的紧张延迟视为效率指标，该指标提供了涉及计算能力，内存成本和带宽的更全面的反馈。基于一系列受控实验，这项工作为面向浓度和部署的网络设计提供了四个实用指南，例如，在阶段级别，早期的变压器和晚期CNN，在Block Level的早期CNN和Late Transformer。因此，提出了一个面向Tensortrt的变压器家族，缩写为TRT-VIT。广泛的实验表明，在不同的视觉任务（例如，图像分类，对象检测和语义细分）方面，TRT-VIT显着优于现有的Convnet和视觉变压器。例如，在82.7％的Imagenet-1k Top-1精度下，TRT-VIT比CSWIN快2.7 $ \ times $，比双胞胎快2.0 $ \ times $。在MS-COCO对象检测任务上，TRT-VIT与双胞胎达到可比的性能，而推理速度则增加了2.8 $ \ times $。

* Cross-Enhancement Transformer for Action Segmentation
* 链接: https://arxiv.org/abs/2205.09445
* 作者: Jiahui Wang,Zhenyou Wang,Shanna Zhuang,Hui Wang
* 摘要: 时间卷积一直是动作分割中选择的范式，它通过增加卷积层增强了长期接受场。但是，高层会导致框架识别所需的本地信息丢失。为了解决上述问题，在本文中提出了一种新颖的编码器结构，称为跨增强变压器。我们的方法可以有效地学习具有互动自我发挥机制的时间结构表示。串联编码器中的每个层卷积特征图与通过自我注意的解码器中的一组特征。因此，本地和全局信息同时使用一系列框架操作。此外，提出了新的损失函数，以增强惩罚过度分割错误的训练过程。实验表明，我们的框架在三个具有挑战性的数据集上执行最先进的方法：50萨拉德，佐治亚理工学院的自我中心活动和早餐数据集。

* Training Vision-Language Transformers from Captions Alone
* 链接: https://arxiv.org/abs/2205.09256
* 作者: Liangke Gui,Qiuyuan Huang,Alex Hauptmann,Yonatan Bisk,Jianfeng Gao
* 摘要: 我们表明，如果没有人类标签（例如类标签，边界框等），可以学习视觉变压器。现有的工作，无论是明确利用边界框还是补丁，都假定必须先对Imagenet类预测进行视觉主链培训，然后再将其集成到多模式的语言管道中。我们表明，这不是必需的，并从字幕（VLC）引入了一个新的模型视觉语言（VLC），该语言（VLC）构建在不需要此监督的蒙版自动编码器上。实际上，在vilt的正面比较中，通过监督对象分类鉴定的基于贴片的当前基于贴片的视觉变压器和我们的模型VLC，我们发现我们的方法1。在标准基准测试上，跑赢式旋转2.提供了更多可解释和直观的补丁可视化，并且3.与许多较大的模型具有竞争力，这些模型利用了在注释的边界盒中训练的ROI。

注意力机制 1篇

* Transferable Physical Attack against Object Detection with Separable Attention
* 链接: https://arxiv.org/abs/2205.09592
* 作者: Yu Zhang,Zhiqiang Gong,Yichuang Zhang,YongQian Li,Kangcheng Bin,Jiahao Qi,Wei Xue,Ping Zhong
* 摘要: 由于深度学习模型被证明容易受到对抗样本的影响，因此可转移的对抗性攻击始终引起人们的关注。但是，现有的物理攻击方法没有足够注意可转让性，从而导致黑盒的性能不佳。本文本文，我们提出了一种新颖的方法，可以产生可实现的对抗性伪装，以实现可转移的攻击，以实现可转移的攻击检测模型。更具体地说，我们首先根据检测模型引入多尺度注意图，以捕获具有各种分辨率的对象的特征。同时，我们采用一系列复合变换来获得平均注意图，这可以遏制注意力中的模型特异性噪声，从而进一步提高可传递性。与一般的可视化解释方法不同，应尽可能将模型注意力放在前景对象上，我们从相反的角度对可分离注意力进行攻击，即抑制前景的注意力并增强背景的注意力。因此，可以通过我们新颖的基于注意力的损失函数有效地产生可转移的对抗伪装。广泛的比较实验验证了我们方法对最先进方法的优越性。

对抗生成学习 4篇

* On Trace of PGD-Like Adversarial Attacks
* 链接: https://arxiv.org/abs/2205.09586
* 作者: Mo Zhou,Vishal M. Patel
* 摘要: 对抗性攻击对深度学习应用构成了安全和安全问题。然而，在很大程度上不可察觉的是，强烈的PGD攻击可能会在对抗性例子中留下很大的痕迹。由于攻击触发了网络的局部线性性，因此我们推测网络在线性的不同范围内进行良性示例和对抗性示例的行为。因此，我们构建了对抗响应特征（ARC）特征，以反映模型围绕输入的梯度一致性，以指示线性的程度。在某些条件下，它显示了从良性示例到对抗性示例的逐渐变化的模式，因为后来导致续集攻击效果（SAE）。 ARC特征可用于使用二进制分类器的知情攻击检测（扰动幅度），也可以使用序数回归的二进制分类器，也可以用于未知的攻击检测（扰动幅度未知）。由于SAE对PGD样攻击的独特性，ARC也能够推断出其他攻击细节，例如损失功能或地面真相标签作为后处理防御。定性和定量评估表现出ARC特征在CIFAR-10 W/ RESNET-18和IMATENET W/ RESNET-152和SWINT-B-IN1K上的有效性，尽管域移动，但在PGD样攻击中具有相当大的概括。我们的方法是直观，发光，非侵入和数据量的。

* Enhancing the Transferability of Adversarial Examples via a Few Queries
* 链接: https://arxiv.org/abs/2205.09518
* 作者: Xiangyuan Yang,Jie Lin,Hanlin Zhang,Xinyu Yang,Peng Zhao
* 摘要: 由于深度神经网络的脆弱性，黑盒攻击引起了社区的极大关注。尽管可转移的先验在最近的努力中降低了黑盒查询攻击的查询数量，但平均查询数仍然大于100，这很容易受到查询限制策略的数量。在这项工作中，我们提出了一种称为“查询先验方法”的新方法，以增强快速梯度符号方法的家族，并通过使用一些查询提高其攻击转移性。具体而言，对于非目标攻击，我们发现成功的攻击对手示例更喜欢将受害者模型归类为错误的类别，概率更高。因此，提出了加权增强的跨透明拷贝损失，以减少替代模型与受害者模型之间的梯度角度，以增强对抗性实例的可传递性。理论分析和广泛的实验表明，我们的方法可以显着提高基于梯度的对抗性攻击对CIFAR10/100和Imagenet的可转移性，并在相同的查询中优于黑盒查询攻击。

* Focused Adversarial Attacks
* 链接: https://arxiv.org/abs/2205.09624
* 作者: Thomas Cilloni,Charles Walter,Charles Fleming
* 摘要: 机器学习的最新进展表明，神经模型容易受到最低扰动的输入或对抗性示例的影响。对抗算法是优化问题，可以通过扰动输入来最大程度地降低ML模型的准确性，通常使用模型的损失函数来制作这种扰动。最先进的对象检测模型的特征是由于图像中可能的位置和大小的大小，因此输出歧管非常大。这导致他们的输出是稀疏和优化的问题，这些问题会引起许多不必要的计算。我们建议使用模型学到的歧管的一个非常有限的子集来计算对抗性示例。我们的\ textit {集中的对抗攻击}（FA）算法确定了一小部分敏感区域以执行基于梯度的对抗攻击。当模型的歧管稀疏激活时，FA的速度明显快于其他基于梯度的攻击。同样，在相同的扰动约束下，其扰动比其他方法更有效。我们在2017年可可和Pascal VOC 2007检测数据集上评估FA。

* Computing the ensemble spread from deterministic weather predictions using conditional generative adversarial networks
* 链接: https://arxiv.org/abs/2205.09182
* 作者: Rüdiger Brecht,Alex Bihlo
* 其他: 9 pages, 4 figures, 3 tables; release version
* 摘要: 合奏预测系统是天气预报的宝贵工具。实际上，通过运行确定性控制预测的几种扰动来获得合奏预测。但是，合奏预测与高计算成本有关，通常涉及统计后处理步骤以提高其质量。在这里，我们建议使用基于深度学习的算法来学习合奏预测系统的统计属性，合奏扩散，仅给定确定性控制预测。因此，一旦受过训练，就不再需要昂贵的整体预测系统来获得未来的整体预测，并且合奏的统计属性可以从单个确定性的预测中得出。我们将经典的Pix2Pix体系结构调整为三维模型，并尝试使用共享的潜在空间编码器模型，并针对500 HPA地理电位高度的数年操作（集合）天气预报进行训练。结果表明，受过训练的模型确实允许仅从控制预测中获得高度准确的集合扩散。

非强监督学习 2篇

* A Topological Approach for Semi-Supervised Learning
* 链接: https://arxiv.org/abs/2205.09617
* 作者: Adrián Inés,César Domínguez,Jónathan Heras,Gadea Mata,Julio Rubio
* 摘要: 如今，机器学习和深度学习方法已成为解决数据分类任务的最新方法。为了使用这些方法，有必要获取和标记大量数据；但是，这在某些领域并不直接，因为数据注释很耗时，并且可能需要专家知识。可以通过使用标记和未标记数据的半监督学习方法来应对这一挑战。在这项工作中，我们根据拓扑数据分析（TDA）的技术介绍了新的半监督学习方法，该领域对于分析具有较高多样性和维度的大量数据非常重要。特别是，我们遵循两种不同的拓扑方法创建了两种半监督学习方法。在前者中，我们使用了一种同源方法，该方法包括研究与数据相关的持久图，并使用瓶颈和瓦斯氏河距离。在后者中，我们已经考虑了数据的连接性。此外，我们使用3个合成数据集，5个结构化数据集和2个图像数据集对开发方法进行了彻底的分析。结果表明，该工作中开发的半监督方法优于仅使用手动标记数据训练的模型获得的结果，以及使用经典半监督学习方法获得的结果，最多可提高16％。

* Learning Feature Fusion for Unsupervised Domain Adaptive Person Re-identification
* 链接: https://arxiv.org/abs/2205.09495
* 作者: Jin Ding,Xue Zhou
* 其他: Accepted by ICPR2022
* 摘要: 无监督的领域自适应（UDA）人重新识别（REID）在没有手动注释的情况下对目标域的有效性引起了人们的关注。大多数基于微调的UDA人REID方法着重于编码伪标签的全局功能，忽略了可以提供细粒信息的本地功能。为了解决这个问题，我们提出了一个学习功能融合（LF2）框架，以自适应学习融合全球和本地功能，以获得更全面的融合功能表示。具体而言，我们首先在源域内预先培训我们的模型，然后根据教师培训策略对未标记的目标域进行微调模型。平均加权教师网络旨在编码全局功能，而在每次迭代时进行更新的学生网络则负责细粒度的本地功能。通过融合这些多视图功能，采用多级聚类来生成各种伪标签。特别是，还提出了一个可学习的融合模块（FM），以使全球功能中的细粒度本地信息突出，以避免掩盖多个伪标签的学习。实验表明，我们提出的LF2框架的表现优于最先进的MAP，Market1501的73.5％MAP和83.7％的级别对DUKEMTMC-REID的表现优于最先进的地图，而DUKEMTMC-REID在DUKEMTMC-REID上的MAP和92.8％的MAP和92.8％的级别为Market1501。

跟踪 1篇

* Beyond Greedy Search: Tracking by Multi-Agent Reinforcement Learning-based Beam Search
* 链接: https://arxiv.org/abs/2205.09676
* 作者: Xiao Wang,Zhe Chen,Jin Tang,Bin Luo,Dacheng Tao
* 其他: In Peer Review
* 摘要: 现有的跟踪器通常选择一个位置或建议，其最高分数作为每个帧的跟踪结果。但是，这种贪婪的搜索方案可能不是最佳选择，尤其是在遇到挑战性跟踪方案（例如重型阻塞和快速运动）时。由于累积错误将使响应分数不再可靠。在本文中，我们提出了一种新型的基于多代理的增强学习的梁搜索策略（称为横梁到达），以解决此问题。具体而言，我们将跟踪作为样本选择问题来解决，这是通过多个并行决策过程来解决的，每个过程旨在将一个样本作为每个帧的跟踪结果选择。我们将目标功能，提案功能及其响应得分作为状态，并考虑附近代理商预测的行动，以训练多代理以选择其动作。处理所有帧时，我们将最大累积分数作为跟踪结果选择轨迹。在七个流行的跟踪基准数据集上进行了广泛的实验证实了所提出的算法的有效性。

分割 1篇

* k-strip: A novel segmentation algorithm in k-space for the application of skull stripping
* 链接: https://arxiv.org/abs/2205.09706
* 作者: Moritz Rempe,Florian Mentzel,Kelsey L. Pomykala,Johannes Haubold,Felix Nensa,Kevin Kröninger,Jan Egger,Jens Kleesiek
* 其他: 11 pages, 6 figures, 2 tables
* 摘要: 目标：提出一种新型的基于学习的颅骨剥离算法，用于磁共振成像（MRI），该算法直接在信息丰富的K空间中起作用。材料和方法：使用来自不同机构的两个数据集，总共有36,900个MRI切片，我们培训了一个基于深度学习的模型，直接与复杂的原始K空间数据合作。图像结构域中由HD-BET（大脑提取工具）执行的头骨剥离被用作地面真相。结果：两个数据集都与地面真相非常相似（骰子得分为92 \％-98 \％，而Hausdorff距离为5.5 mm以下）。在眼睛区域上方的切片上的结果达到99 \％的骰子得分，而眼睛周围及以下区域的精度下降，输出部分模糊。 k-strip的输出通常在颅骨划分时平滑边缘。创建具有适当阈值的二进制蒙版。结论：通过这项概念验证研究，我们能够显示在K空间频域中工作，保留相位信息的可行性，并保持一致的结果。未来的研究应致力于发现K空间可用于创新图像分析和进一步工作流程的其他方式。

分类 & 检索 4篇

* PYSKL: Towards Good Practices for Skeleton Action Recognition
* 链接: https://arxiv.org/abs/2205.09443
* 作者: Haodong Duan,Jiaqi Wang,Kai Chen,Dahua Lin
* 其他: Tech Report
* 摘要: 我们提出Pyskl：基于Pytorch的基于骨架的动作识别的开源工具箱。该工具箱支持各种骨架动作识别算法，包括基于GCN和CNN的方法。与现有的开源骨骼行动识别项目相反，仅包括一两个算法，Pyskl在统一框架下实现了六种不同的算法，并具有最新和原始的良好实践，以减轻功效和效率的比较。我们还提供了名为ST-GCN ++的原始原始基于GCN的骨架动作识别模型，该模型可在没有任何复杂的注意力方案的情况下实现竞争性识别性能，作为强大的基线。同时，PYSKL支持对九个基于骨架的动作识别基准的训练和测试，并在其中八个方面实现最先进的识别表现。为了促进对骨架动作识别的未来研究，我们还提供了大量训练有素的模型和详细的基准结果，以提供一些见解。 PYSKL在此HTTPS URL上发布，并积极维护。当我们添加新功能或基准测试时，我们将更新此报告。当前版本对应于Pyskl V0.2。

* On Demographic Bias in Fingerprint Recognition
* 链接: https://arxiv.org/abs/2205.09318
* 作者: Akash Godbole,Steven A. Grosz,Karthik Nandakumar,Anil K. Jain
* 摘要: 指纹识别系统已在全球范围内部署在许多应用程序中，包括个人设备，取证，执法，银行业和国家身份系统。对于这些系统在社会上可以接受和值得信赖，至关重要的是，它们在不同的人口组中同样表现出色。在这项工作中，我们提出了一个正式的统计框架，以测试四个主要人口组（白人男性，白人女性，黑人男性和黑人女性）的指纹识别中存在偏见（人口统计学差异）的存在。-ART（SOTA）指纹匹配器在验证和识别模式下运行。在两个不同的指纹数据库（有15,468和1,014名受试者）上进行的实验表明，随着匹配项的精度的提高，SOTA指纹识别系统中的人口统计学差异降低，并且可能明显的任何小偏见可能是由于某些较小的偏见，这是由于某些较小的较小，低质量指纹图像。

* Bayesian Convolutional Neural Networks for Limited Data Hyperspectral Remote Sensing Image Classification
* 链接: https://arxiv.org/abs/2205.09250
* 作者: Mohammad Joshaghani,Amirabbas Davari,Faezeh Nejati Hatamian,Andreas Maier,Christian Riess
* 摘要: 采用深度光谱遥感（HSRS）图像分类的深度神经网络是一项具有挑战性的任务。 HSRS图像具有较高的维度和大量通道，在通道之间具有很大的冗余性。此外，与其他分类任务相比，用于对HSRS图像进行分类的培训数据有限，可用培训数据的数量要小得多。这些因素使深层神经网络的训练过程复杂化，并且与常规模型相比，即使它们的表现也不好。此外，卷积神经网络产生过度自信的预测，考虑到上述问题，这是非常不希望的。在这项工作中，我们使用特殊的深神经网络（即贝叶斯神经网络）来对HSRS图像进行分类。就我们的知识而言，这是HSRS图像分类中首次使用这类神经网络。贝叶斯神经网络为测量不确定性提供了固有的工具。我们表明，贝叶斯网络的表现可以胜过类似结构的非湾卷积神经网络（CNN）和现成的随机森林（RF）。此外，帕维亚中心，萨利纳斯和博茨瓦纳数据集的实验结果表明，贝叶斯网络更稳定和强大，可以模拟修剪。此外，我们分析了贝叶斯模型的预测不确定性，并表明预测不确定性指标可以提供有关模型预测的信息，并与预测误差有正相关。

* CLCNet: Rethinking of Ensemble Modeling with Classification Confidence Network
* 链接: https://arxiv.org/abs/2205.09612
* 作者: Yao-Ching Yu,Shi-Jinn Horng
* 摘要: 在本文中，我们提出了一个分类置信网（CLCNET），该网络可以确定分类模型是否正确分类输入样本。它可以以任何维度为单位的向量形式进行分类结果，并将置信得分作为输出返回，这表示实例正确分类的概率。我们可以在由几个SOTA（最新）分类模型组成的简单级联结构系统中使用CLCNET，我们的实验表明该系统可以实现以下优势：1。该系统可以自定义平均计算要求（推理时每张图像）。 2.在相同的计算要求下，系统的性能可以超过与系统中具有相同结构相同结构的任何模型，但大小不同。实际上，这是一种新型的合奏建模。像一般的合奏建模一样，它可以比单个分类模型获得更高的性能，但是我们的系统所需的计算要比一般合奏建模要少得多。我们已将代码上传到GITHUB存储库：此HTTPS URL。

去雨/雪/雾/噪 1篇

* Masked Image Modeling with Denoising Contrast
* 链接: https://arxiv.org/abs/2205.09616
* 作者: Kun Yi,Yixiao Ge,Xiaotong Li,Shusheng Yang,Dian Li,Jianping Wu,Ying Shan,Xiaohu Qie
* 摘要: 由于从对比度学习到掩盖图像建模的自我监督的视觉表示学习的发展，因此本质上没有显着差异，即如何为视觉词典查找设计正确的借口任务。最近，掩盖图像建模在视觉变压器上的最先进的性能中占据了这一研究，其中核心是通过剥夺自动编码机制来增强网络捕获的贴片级视觉上下文。我们没有像以前的作品那样定制额外训练阶段的图像令牌，而是释放了对对比度学习的巨大潜力，以降级自动编码，并引入一种新的预训练方法CONMIM，以产生简单的内部图像间互相对比的约束。掩盖补丁预测的学习目标。我们通过不对称设计（包括图像扰动和模型进度速率）进一步加强了脱氧机制，以改善网络预训练。具有各种量表的Conmim预言视觉变压器在下游图像分类，语义分割，对象检测和实例分割任务上取得了令人鼓舞的结果。

其他 22篇

* BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving
* 链接: https://arxiv.org/abs/2205.09743
* 作者: Yunpeng Zhang,Zheng Zhu,Wenzhao Zheng,Junjie Huang,Guan Huang,Jie Zhou,Jiwen Lu
* 其他: Code: this https URL
* 摘要: 在本文中，我们提出了Beverse，这是基于多相机系统的3D感知和预测的统一框架。与现有有关改进单任务方法的研究不同，从多摄像机视频中产生时空鸟类视图（BEV）表示方面的诱人特征，以及关于以视觉为中心自主驾驶的多个任务的共同推理。具体而言，Geverse首先执行共享的特征提取和抬高，以从多型膜片和多视图图像生成4D BEV表示。自我运动比对之后，将时空编码器用于BEV中的进一步提取。最后，将多个任务解码器附加在一起以进行联合推理和预测。在解码器中，我们建议网格采样器生成具有不同范围和粒度的BEV特征，以实现不同的任务。此外，我们设计了迭代流的方法，以进行记忆有效的未来预测。我们表明，时间信息改善了3D对象检测和语义图构建，而多任务学习可以隐含地受益于运动预测。通过在Nuscenes数据集上进行的大量实验，我们表明，多任务贝词在3D对象检测，语义MAP构造和运动预测上的现有单任务方法优于现有的单任务方法。与顺序范式相比，在显着提高效率方面的敬意也有利。代码和训练有素的模型将在此HTTPS URL上发布。

* Diverse Weight Averaging for Out-of-Distribution Generalization
* 链接: https://arxiv.org/abs/2205.09739
* 作者: Alexandre Rame,Matthieu Kirchmeyer,Thibaud Rahier,Alain Rakotomamonjy,Patrick Gallinari,Matthieu Cord
* 其他: 31 pages, 14 figures, 11 tables
* 摘要: 标准的神经网络努力概括分配变化。对于计算机视觉中的分布概括，最佳当前方法平均沿训练运行。在本文中，我们提出了对这种策略进行简单更改的平均不同权重（DIWA）：DIWA平均从几个独立的训练运行中获得的权重，而不是从一次运行中获得的权重。也许令人惊讶的是，尽管网络的非线性，平均这些权重在软限制下表现良好。 DIWA背后的主要动机是增加平均模型的功能多样性。实际上，由于超参数和训练程序的差异，从不同运行中获得的模型比单一跑步的模型更多样化。我们通过对预期误差的新偏见 - 方差 - 可协方差分解来激发多样性的需求，从而利用了DIWA和标准功能结合之间的相似性。此外，这种分解强调了DIWA在差异术语中占主导地位时成功的表明，当边缘分布在测试时发生变化时，我们表明这会发生。在实验上，DIWA始终在没有推理开销的竞争域基准测试上改善最新技术状态。

* Towards Unified Keyframe Propagation Models
* 链接: https://arxiv.org/abs/2205.09731
* 作者: Patrick Esser,Peter Michael,Soumyadip Sengupta
* 其他: CVPRW 2022 - AI for Content Creation Workshop. Code at this https URL
* 摘要: 许多视频编辑任务，例如旋转镜或对象去除，都需要跨帧的上下文传播。尽管在全球范围内汇总特征的变压器和其他基于注意力的方法在传播从关键框架到整个视频的对象蒙版方面取得了巨大的成功，但它们努力地传播高频细节，例如忠实的纹理。我们假设这是由于全球关注对低频特征的固有偏见。为了克服这一限制，我们提出了一种两流的方法，其中高频特征在本地相互作用和低频特征在全球范围内相互作用。在诸如大型摄像机运动之类的艰难情况下，全局交互流仍然强大，而显式对齐失败。局部交互流通过可变形的特征聚合传播高频细节，并通过全局交互流进行告知，学会了检测和纠正变形场的错误。我们评估了我们的两流方法的介入任务，其中实验表明，它既改进了图像填充所需的单个帧中特征的传播，又可以改善它们从关键框架到目标框架的传播。应用于视频介绍，我们的方法可提高FID和LPIPS分数44％和26％。此https url中的代码

* Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning
* 链接: https://arxiv.org/abs/2205.09542
* 作者: Yuxin Zhang,Fan Tang,Weiming Dong,Haibin Huang,Chongyang Ma,Tong-Yee Lee,Changsheng Xu
* 其他: Accepted by SIGGRAPH 2022
* 摘要: 在这项工作中，我们使用新型样式特征表示方法解决了任意图像样式转移的挑战性问题。合适的样式表示形式，作为图像样式任务中的关键组成部分，对于获得令人满意的结果至关重要。现有的基于神经网络的方法通过二阶统计数据（例如内容特征的革兰氏矩阵）获得了合理的结果。但是，它们不利用足够的样式信息，从而导致诸如局部扭曲和风格不一致之类的人工制作。为了解决这些问题，我们建议通过分析多种样式之间的相似性和差异并考虑样式分布，直接从图像功能而不是其二阶统计数据中学习样式表示形式。具体而言，我们提出了对比的任意风格转移（CAST），这是一种通过对比学习的新样式表示学习和样式转移方法。我们的框架由三个关键组件，即用于样式代码编码的多层样式投影仪，用于有效学习样式分布的域增强模块以及用于图像样式传输的生成网络。我们全面进行定性和定量评估，以证明与通过最新方法获得的方法相比，我们的方法取得了明显更好的结果。代码和型号可在此HTTPS URL上找到

* Oracle-MNIST: a Realistic Image Dataset for Benchmarking Machine Learning Algorithms
* 链接: https://arxiv.org/abs/2205.09442
* 作者: Mei Wang,Weihong Deng
* 摘要: 我们介绍了Oracle-Mnist数据集，包括28美元的$ \ times $ 28灰度图像，这些图像来自10个类别，用于基准图案分类，并在图像噪声和失真方面面临特定的挑战。该训练集完全由27,222张图像组成，测试集每类包含300张图像。Oracle-Mnist与原始MNIST数据集共享相同的数据格式，从而直接与所有现有的分类器和系统兼容，但它构成了比MNIST更具挑战性的分类任务。古代人物的图像遭受了1）三千年的埋葬和老化以及2）古代汉语的巨大变体写作风格引起的极端严重和独特的噪音，这使它们在机器学习研究中变得现实。该数据集可在此HTTPS URL上免费获得。

* UIF: An Objective Quality Assessment for Underwater Image Enhancement
* 链接: https://arxiv.org/abs/2205.09392
* 作者: Yannan Zheng,Weiling Chen,Rongfu Lin,Tiesong Zhao
* 其他: This paper was submitted to ACMMM 2021
* 摘要: 由于复杂且挥发性的照明环境，水下成像很容易受到光散射，翘曲和噪音的损害。为了提高视觉质量，已经广泛研究了水下图像增强（UIE）技术。最近的努力也有助于评估和比较UIE表现与主观和客观方法。但是，主观评估是所有图像的耗时和不经济的，而现有的客观方法对基于深度学习的新开发的UIE方法具有有限的功能。为了填补这一空白，我们提出了一个水下图像保真度（UIF）度量，以对增强的水下图像进行客观评估。通过利用这些图像的统计特征，我们提出以提取与自然性相关，锐度相关和与结构相关的特征。其中，与自然性相关和清晰相关的特征评估了增强图像的视觉改进；与结构相关的特征表示UIE前后图像之间的结构相似性。然后，我们采用支持向量回归将上述三个功能融合到最终的UIF度量中。此外，我们还建立了一个具有主观分数的大规模UIE数据库，即水下图像增强数据库（UIED），该数据库被用作比较所有客观指标的基准。实验结果证实，所提出的UIF胜过各种水下和通用图像质量指标。

* Unconventional Visual Sensors for Autonomous Vehicles
* 链接: https://arxiv.org/abs/2205.09383
* 作者: You Li,Julien Moreau,Javier Ibanez-Guzman
* 摘要: 自动驾驶汽车依靠感知系统来了解其周围的行驶任务。由于现代计算机视觉算法提供的对象检测和识别的优势，与其他传感器（例如LIDARS和READAR）相比，相机对于感知系统至关重要。但是，受其固有成像原理的限制，标准的RGB摄像机在各种不良情况下的性能可能会差，包括但不限于：低照明，高对比度，恶劣天气，例如雾/雨/雪等。同时，估计与激光雷达或雷达相比，来自2D图像检测的3D信息通常更加困难。近年来，已经出现了几种新的传感技术来解决常规RGB摄像机的局限性。在本文中，我们回顾了四个新型图像传感器的原理：红外摄像机，射程门控相机，极化摄像机和事件摄像机。它们的比较优势，现有或潜在的应用程序以及相应的数据处理算法都以系统的方式呈现。我们预计这项研究将通过新的观点和见解帮助自治驾驶社会的从业者。

* Plane Geometry Diagram Parsing
* 链接: https://arxiv.org/abs/2205.09363
* 作者: Ming-Liang Zhang,Fei Yin,Yi-Han Hao,Cheng-Lin Liu
* 其他: Accepted to IJCAI 2022
* 摘要: 几何图解析在几何问题解决中起关键作用，其中原始提取和关系解析由于复杂的布局和主要关系之间的关系而保持挑战。在本文中，我们提出了一个基于深度学习和图形推理的强大图表解析器。具体而言，提出了一种修改的实例分割方法来提取几何原始素，并利用图形神经网络（GNN）来实现关系解析和原始分类，并结合了几何特征和先验知识。所有模块都集成到称为PGDPNET的端到端模型中，以同时执行所有子任务。此外，我们构建了一个新的大规模几何图数据集，名为PGDP5K具有原始级别注释。在PGDP5K和现有数据集Imp-Ageometry3K上进行的实验表明，我们的模型在四个子任务中的最先进方法非常明显。我们的代码，数据集和附录材料可在此HTTPS URL上找到。

* Physically-Based Editing of Indoor Scene Lighting from a Single Image
* 链接: https://arxiv.org/abs/2205.09343
* 作者: Zhengqin Li,Jia Shi,Sai Bi,Rui Zhu,Kalyan Sunkavalli,Miloš Hašan,Zexiang Xu,Ravi Ramamoorthi,Manmohan Chandraker
* 摘要: 我们提出了一种从单个图像中编辑复杂室内照明的方法，其深度和光源分割掩码。这是一个极具挑战性的问题，需要对复杂的光传输进行建模，并仅通过对场景的部分LDR观察，将HDR照明从材料和几何形状中解散。我们使用两个新颖的组件解决了这个问题：1）一种整体场景重建方法，该方法估计场景反射率和参数3D照明，以及2）一个神经渲染框架，从我们的预测中重新呈现场景。我们使用基于物理的室内光表示，可以进行直观的编辑，并推断可见和看不见的光源。我们的神经渲染框架结合了基于物理的直接照明和阴影渲染，深层网络近似于全球照明。它可以捕获具有挑战性的照明效果，例如柔软的阴影，定向照明，镜面材料和反射。以前的单个图像逆渲染方法通常纠缠场景照明和几何形状，仅支持对象插入等应用程序。取而代之的是，通过将参数3D照明估计与神经场景渲染相结合，我们演示了从单个图像中实现完整场景重新确定（包括光源插入，删除和替换）的第一种自动方法。所有源代码和数据将公开发布。

* HandoverSim: A Simulation Framework and Benchmark for Human-to-Robot Object Handovers
* 链接: https://arxiv.org/abs/2205.09747
* 作者: Yu-Wei Chao,Chris Paxton,Yu Xiang,Wei Yang,Balakumar Sundaralingam,Tao Chen,Adithyavairavan Murali,Maya Cakmak,Dieter Fox
* 其他: Accepted to ICRA 2022
* 摘要: 我们引入了一个新的模拟基准“ HandoverSim”，用于人工到机器人对象移交。为了模拟给予者的运动，我们利用了最近的动作捕获数据集的手动抓握对象的数据集。我们通过标准化协议和指标为接收器创建培训和评估环境。我们分析了一组基线的性能，并显示与现实世界评估的相关性。代码是在此HTTPS URL上开源的。

* Voxel-informed Language Grounding
* 链接: https://arxiv.org/abs/2205.09710
* 作者: Rodolfo Corona,Shizhan Zhu,Dan Klein,Trevor Darrell
* 其他: ACL 2022
* 摘要: 自然语言应用于自然2D图像，描述了一个从根本上描述的3D世界。我们介绍了Voxel信息接地器（VLG），该语言接地模型以使用体积重建模型从视觉输入得出的体素图的形式利用3D几何信息。我们表明，VLG显着提高了对象参考游戏任务SNARE的接地精度。在撰写本文时，VLG在SNARE排行榜上排名最高，以2.0％的绝对提高获得SOTA结果。

* Bi-LSTM Scoring Based Similarity Measurement with Agglomerative Hierarchical Clustering (AHC) for Speaker Diarization
* 链接: https://arxiv.org/abs/2205.09709
* 作者: Siddharth S. Nijhawan,Homayoon Beigi
* 其他: 8 pages, 3 figures, 2 tables, 1 algorithm, Technical Report: Recognition Technologies, Inc
* 摘要: 在不同场景中，大多数语音信号永远无法使用，仅包含一个扬声器的明确定义的音频段。两位演讲者之间的典型对话包括部分，他们的声音在多个句子之间重叠，相互打断或停止演讲。诊断技术的最新进展利用基于神经网络的方法即兴即兴创作了扬声器诊断系统的多个子系统，包括提取细分市场的嵌入特征和在对话过程中检测说话者的变化。但是，为了通过聚类来识别说话者，模型取决于PLDA等方法论，以从给定的对话音频中产生两个提取段之间的相似性度量。由于这些算法忽略了对话的时间结构，因此它们倾向于达到较高的诊断错误率（DER），从而导致在说话者和变化识别方面导致错误探测。因此，为了比较两个语音段的相似性，无论是独立和顺序的，我们提出了一个双向长期记忆网络，以估计相似性矩阵中存在的元素。一旦生成相似性矩阵，将应用集聚性层次聚类（AHC），以进一步根据阈值识别说话者段。为了评估性能，使用诊断错误率（DER％）度量。与传统的基于PLDA的相似性测量机制相比，提出的模型在ICSI Meeting Coppus的一组测试音频样本上达到了34.80％的低DER，该样品的相似性测量机制达到了39.90％。

* EXACT: How to Train Your Accuracy
* 链接: https://arxiv.org/abs/2205.09615
* 作者: Ivan Karpukhin,Stanislav Dereka,Sergey Kolesnikov
* 摘要: 通常根据准确性评估分类任务。但是，准确性是不连续的，不能使用梯度上升直接优化。流行方法最大程度地减少了跨凝性，铰链损失或其他替代损失，这可能导致次优结果。在本文中，我们通过将随机性引入模型的输出并优化预期准确性，即随机模型的准确性来提出一个新的优化框架。图像分类的广泛实验表明，提出的优化方法是广泛使用分类损失的强大替代方法。

* Estimating the ultrasound attenuation coefficient using convolutional neural networks -- a feasibility study
* 链接: https://arxiv.org/abs/2205.09533
* 作者: Piotr Jarosik,Michal Byra,Marcin Lewandowski,Ziemowit Klimonda
* 其他: 4 figures
* 摘要: 衰减系数（AC）是对组织声学特性的基本度量，可用于医学诊断。在这项工作中，我们研究了使用卷积神经网络（CNN）直接从射频（RF）超声信号直接估算AC的可行性。为了开发CNN，我们使用了从模拟数值幻象的组织中收集的RF信号，以在0.1至1.5 dB/（MHzcm）范围内的AC值中收集。根据RF数据的1D贴片对模型进行了培训。我们获得的平均绝对AC估计误差为0.08、0.12、0.20、0.25，分别为10 mm，5 mm，2 mm和1 mm。我们通过可视化与卷积过滤器相关的频率内容来解释模型的性能。我们的研究表明，可以使用深度学习来计算AC，并且CNN的权重可以具有物理解释。

\ Image Augmentation Based Momentum Memory Intrinsic Reward for Sparse Reward Visual Scenes
* 链接: https://arxiv.org/abs/2205.09448
* 作者: Zheng Fang,Biao Zhao,Guizhong Liu
* 摘要: 现实生活中的许多场景都可以抽象成稀疏的奖励视觉场景，在仅接受图像和稀疏奖励的条件下，代理很难解决任务。我们建议将这个问题分解为两个子问题：视觉表示和稀疏的奖励。为了解决他们，提出了一个新颖的框架，将自我监督的表示学习与内在动机结合在一起。对于视觉表示，获得了成像前向动力学和奖励的组合所驱动的表示。对于稀疏的奖励，设计了一种新型的内在奖励，即动量记忆内在的奖励（MMIR）。它利用了与当前模型（在线网络）和历史模型（目标网络）的输出的差异来介绍代理的状态熟悉度。我们的方法在Vizdoom中的稀疏奖励上对视觉导航任务进行了评估。实验表明，我们的方法在样本效率方面达到了最先进的性能，至少比现有方法达到100％成功率的速度至少要快2倍。

[推荐] * Let's Talk! Striking Up Conversations via Conversational Visual Question Generation

* 链接: https://arxiv.org/abs/2205.09327
* 作者: Shih-Han Chan,Tsai-Lun Yang,Yun-Wei Chu,Chi-Yang Hsu,Ting-Hao Huang,Yu-Shian Chiu,Lun-Wei Ku
* 其他: Accepted as a full talk paper on AAAI-DEEPDIAL'21
* 摘要: 引人入胜且挑衅的问题可以打开一个很好的对话。在这项工作中，我们探讨了一种新颖的方案：对话代理人观看一组用户的照片（例如，从社交媒体平台上），并提出一个引人入胜的问题以启动与用户的对话。现有的愿景对问题模型主要产生乏味而明显的问题，这可能不是理想的对话开始者。本文介绍了一个两阶段的框架，该框架首先为照片集生成视觉故事，然后使用故事来提出一个有趣的问题。人类评估表明，与其他愿景对问题基线相比，我们的框架为开始对话产生更多的发动机问题。

* A Sub-pixel Accurate Quantification of Joint Space Narrowing Progression in Rheumatoid Arthritis
* 链接: https://arxiv.org/abs/2205.09315
* 作者: Yafei Ou,Prasoon Ambalathankandy,Ryunosuke Furuya,Seiya Kawada,Tianyu Zeng,Yujie An,Tamotsu Kamishima,Kenichi Tamura,Masayuki Ikebe
* 摘要: 类风湿关节炎（RA）是一种慢性自身免疫性疾病，主要影响外周关节，例如手指，手腕和脚。放射学在RA的诊断和监测中起着至关重要的作用。受射线照相成像的当前空间分辨率的限制，以上相同原因的RA的关节空间狭窄（JSN）的进展可能少于每年的像素，并且具有通用空间分辨率。对JSN的不敏感监测可能会阻碍放射科医生/风湿病专家做出适当，及时的临床判断。在本文中，我们提出了一种新颖敏感的方法，我们称之为部分图像相关相关性，旨在自动量化RA早期阶段的JSN进展。当前的大多数文献都利用平均误差，根平方偏差和标准偏差来报告像素级别的准确性。我们的工作通过使用频域中的相光谱来测量基线与其后续手指关节图像之间的JSN进程。使用这项研究，将平均误差用于具有地面真相的幻影X光片和0.0519mm的临床射线照相标准偏差。由于其子像素精度远远超出了手动测量，我们乐观地认为我们的工作有望自动量化JSN的进展。

* On the Limits of Evaluating Embodied Agent Model Generalization Using Validation Sets
* 链接: https://arxiv.org/abs/2205.09249
* 作者: Hyounghun Kim,Aishwarya Padmakumar,Di Jin,Mohit Bansal,Dilek Hakkani-Tur
* 其他: ACL 2022 Insights Workshop (6 pages)
* 摘要: 自然语言指导的体现任务完成是一个具有挑战性的问题，因为它需要理解自然语言指示，使其与以自我为中心的视觉观察保持一致，并选择适当的措施在环境中执行以产生理想的变化。我们通过使用模块有效地利用更广阔视野的模块来增强该任务的变压器模型，并学习选择下一步是否需要导航或操纵操作。我们观察到，所提出的模块改善了，实际上是在一个流行的基准数据集Alfred的看不见验证集中的最先进的性能。但是，我们使用看不见的验证集在阿尔弗雷德（Alfred）看不见的测试拆分上选择的最佳模型，表明在看不见的验证集上的性能本身可能不足以表明模型改进是否概括为未看到的测试集。我们强调了这一结果，因为我们认为这可能是机器学习任务中的一个更广泛的现象，但主要仅在限制测试拆分评估的基准中值得注意，并强调需要修改基准测试设计以更好地说明模型性能方面的差异。

* Scalable Multi-view Clustering with Graph Filtering
* 链接: https://arxiv.org/abs/2205.09228
* 作者: Liang Liu,Peng Chen,Guangchun Luo,Zhao Kang,Yonggang Luo,Sanchu Han
* 摘要: 随着多源数据的爆炸性增长，近年来，多视图聚类引起了极大的关注。大多数现有的多视图方法在原始特征空间中运行，并且在很大程度上取决于原始特征表示的质量。此外，它们通常是为特征数据而设计的，而忽略了丰富的拓扑结构信息。因此，在本文中，我们提出了一个通用框架，以将属性和图形数据聚集具有异质特征。它能够探索功能和结构之间的相互作用。具体而言，我们首先采用图形滤波技术来消除高频噪声以实现群集友好的平滑表示。为了应对可扩展性挑战，我们制定了一种新颖的抽样策略来提高锚固质量。关于属性和图基准测试的广泛实验证明了我们在最新方法方面的优越性。

* LeRaC: Learning Rate Curriculum
* 链接: https://arxiv.org/abs/2205.09180
* 作者: Florinel-Alin Croitoru,Nicolae-Catalin Ristea,Radu Tudor Ionescu,Nicu Sebe
* 摘要: 大多数课程学习方法都需要一种方法来通过难度对数据样本进行分类，这通常很麻烦。在这项工作中，我们提出了一种新颖的课程学习方法，称为学习率课程（LERAC），该方法利用神经网络的每个层的学习率使用不同的学习率，以在初始培训时期创建无数据的课程。更具体地说，LERAC将更高的学习率分配给更接近输入的神经层，随着层与输入较远的层次，逐渐降低了学习率。在第一次训练迭代期间，学习率在各个速度上增加，直到它们都达到相同的价值为止。从这一点开始，神经模型像往常一样受到训练。这创建了模型级的课程学习策略，该策略不需要难以对示例进行排序，并且与任何神经网络兼容，无论体系结构如何，都会产生更高的性能水平。我们在计算机视觉（CIFAR-10，CIFAR-100，Tiny Imagenet），语言（Boolq，QNLI，RTE）和音频（ESC-50，Crema-d）域中对八个数据集进行全面实验，考虑到各种卷积（Resnet） -18，Wide-Resnet-50，Densenet-121），经常性（LSTM）和变压器（CVT，BERT，SEPTR）体系结构，将我们的方法与常规训练制度进行了比较。此外，我们还通过平滑（CBS）（一种最新的无数据课程学习方法）与课程进行比较。与CBS不同，在所有数据集和模型中，我们对标准培训制度的绩效改进是一致的。此外，我们在训练时间方面大大超过了CBS（与LERAC的标准培训制度相比，没有额外的成本）。

* Exploring the Adjugate Matrix Approach to Quaternion Pose Extraction
* 链接: https://arxiv.org/abs/2205.09116
* 作者: Andrew J. Hanson,Sonya M. Hanson
* 其他: 67 pages, 5 appendices, 9 figures
* 摘要: 四季度对于计算机图形，机器视觉和机器人技术中的各种旋转相关问题很重要。我们通过利用相关特征值问题的特征方程式的邻接矩阵来研究四元组和旋转矩阵之间关系的非平凡几何形状，从而获得四元素特征矢量空间的歧管。我们认为，通过其相应的旋转矩阵参数为参数的四元素不能在机器学习任务中表达为单值函数：相反，必须将Quaternion解决方案视为歧管，并为几个单个单值的每个代数解决方案视为歧管。由邻接矩阵表示的扇区。我们以利用二合一邻接变量的新颖结构来重新审视几个经典姿势估计应用程序：2D点云匹配，2D点云到反射匹配，3D点云匹配，3D焦点 - 焦点 - 孔隙杆to-poxpoxjection匹配，，和3D透视点云到否定的匹配。我们找到了针对3D拼字法最小二乘构成提取问题的精确解决方案，并将其成功地应用于透视姿势提取问题，并改善了现有方法的结果。

* Dark Solitons in Bose-Einstein Condensates: A Dataset for Many-body Physics Research
* 链接: https://arxiv.org/abs/2205.09114
* 作者: Amilson R. Fritsch,Shangjie Guo,Sophia M. Koh,I. B. Spielman,Justyna P. Zwolak
* 其他: 16 pages, 4 figures
* 摘要: 我们建立了一个超过$ 1.6 \ times10^4 $的数据集的bose-Einstein冷凝物的实验图像，其中含有孤子激发，以实现机器学习（ML）进行多体物理学研究。该数据集的大约33％已经手动分配和精心策划的标签。其余部分将使用Soldet自动标记 - 实现了物理知识的ML数据分析框架 - 由基于卷积的神经网络网络组成的分类器和对象检测器以及统计学动机的物理学知识分类器和优质的指标组成。该技术说明构成了数据集的明确参考，为数据科学界提供了开发更复杂的分析工具的机会，以进一步了解非线性多体物理学，甚至推进冷原子实验。

发布于 2022-05-27 16:16

深度学习（Deep Learning）

计算机视觉

文章被以下专栏收录

arXiv每日更新

统计arXiv中每日关于计算机视觉文章的更新

深圳SEO优化公司铜仁网络广告推广昌都网站优化按天计费多少钱宝鸡网络广告推广推荐秦皇岛推广网站多少钱包头至尊标王报价襄阳SEO按天扣费推荐佛山网站改版价格济源网站搜索优化价格张家界推广网站报价仙桃网站推广工具公司黑河营销网站推荐曲靖百度网站优化排名价格合肥网站建设设计济源网站定制公司天水营销网站哪家好漯河企业网站制作推荐阜阳网站设计模板公司防城港外贸网站建设哪家好荆门网站建设设计报价荷坳百度seo推荐邵阳百度网站优化排名价格泉州百姓网标王韶关网站制作多少钱阳泉网站改版哪家好石岩模板制作公司湘西企业网站改版推荐坑梓网站推广工具公司益阳网站优化按天收费多少钱宝鸡seo排名推荐诸城seo网站推广公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化