hitrjj

【AI视野·今日CV 计算机视觉论文速览第288期】Thu, 11 Jan 2024

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 11 Jan 2024
Totally 50 papers
上期速览✈更多精彩请移步主页

Daily Computer Vision Papers

Towards Online Sign Language Recognition and Translation
Authors Ronglai Zuo, Fangyun Wei, Brian Mak
手语识别的目标是弥合聋哑人和听力正常者之间的沟通差距。之前的许多工作都使用完善的联结主义时间分类 CTC 损失来训练他们的模型。在推理阶段，基于 CTC 的模型通常将整个标志视频作为输入来进行预测。这种类型的推理方案称为离线识别。相比之下，虽然成熟的语音识别系统可以有效地即时识别口语单词，但由于缺乏实用的在线解决方案，手语识别仍然存在不足。在这项工作中，我们迈出了填补这一空白的第一步。我们的方法包括三个阶段： 1 开发包含目标手语数据集中存在的所有注释的手语词典 2 使用传统分类损失和我们新颖的显着性损失来训练增强符号上的孤立手语识别模型 3 在输入符号序列并将每个符号片段输入到优化良好的模型中进行在线识别。此外，我们的在线识别模型可以扩展以提高任何离线模型的性能，并通过在识别模型上附加文本网络注释来支持在线翻译。通过将我们的在线框架与之前性能最佳的离线模型 TwoStream SLR 相集成，我们在 Phoenix 2014、Phoenix 2014T 和 CSL Daily 三个基准测试中实现了最先进的性能。

InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes
Authors Mohamad Shahbazi, Liesbeth Claessens, Michael Niemeyer, Edo Collins, Alessio Tonioni, Luc Van Gool, Federico Tombari
我们介绍 InseRF，这是一种在 3D 场景的 NeRF 重建中生成对象插入的新方法。基于用户提供的文本描述和参考视点中的 2D 边界框，InseRF 在 3D 场景中生成新对象。最近，由于在 3D 生成建模中使用了文本到图像扩散模型的强先验，3D 场景编辑方法已经发生了深刻的转变。现有方法在通过样式和外观更改或删除现有对象来编辑 3D 场景时最有效。然而，生成新对象仍然是此类方法的一个挑战，我们在本研究中解决了这个问题。具体来说，我们建议将 3D 对象插入基础为场景参考视图中的 2D 对象插入。然后使用单视图对象重建方法将 2D 编辑提升为 3D。然后，在单目深度估计方法的先验指导下，将重建的对象插入场景中。我们在各种 3D 场景上评估我们的方法，并对所提出的组件进行深入分析。我们在多个 3D 场景中生成对象插入的实验表明，与现有方法相比，我们的方法是有效的。 InseRF 能够进行可控且 3D 一致的对象插入，而不需要明确的 3D 信息作为输入。

URHand: Universal Relightable Hands
Authors Zhaoxi Chen, Gyeongsik Moon, Kaiwen Guo, Chen Cao, Stanislav Pidhorskyi, Tomas Simon, Rohan Joshi, Yuan Dong, Yichen Xu, Bernardo Pires, He Wen, Lucas Evans, Bo Peng, Julia Buffalini, Autumn Trimble, Kevyn McPhail, Melissa Schoeller, Shoou I Yu, Javier Romero, Michael Zollh fer, Yaser Sheikh, Ziwei Liu, Shunsuke Saito
现有的真实感可重复照明手部模型需要在不同的视图、姿势和照明下进行广泛的特定于身份的观察，并且在推广到自然照明和新颖的身份方面面临挑战。为了弥补这一差距，我们推出了 URHand，这是第一个通用的可重新照明的手模型，它概括了视角、姿势、照明和身份。我们的模型允许使用手机拍摄的图像进行很少的镜头个性化，并且可以在新颖的照明下进行照片级真实感渲染。为了简化个性化过程，同时保留照片真实感，我们基于在具有数百个身份的光舞台中捕获的手部多视图图像的神经重新照明，构建了一个强大的通用可重新照明先验。关键的挑战是扩展跨身份训练，同时保持个性化的保真度和清晰的细节，而不影响自然照明下的泛化能力。为此，我们提出了一种空间变化的线性光照模型作为神经渲染器，它将物理启发的着色作为输入特征。通过消除非线性激活和偏差，我们专门设计的照明模型明确地保持了光传输的线性。这使得能够从光阶段数据进行单阶段训练，同时推广到跨不同身份的任意连续照明下的实时渲染。此外，我们引入了基于物理的模型和神经重新照明模型的联合学习，这进一步提高了保真度和泛化能力。大量的实验表明，我们的方法在质量和通用性方面都优于现有方法。

Enhanced Muscle and Fat Segmentation for CT-Based Body Composition Analysis: A Comparative Study
Authors Benjamin Hou, Tejas Sudharshan Mathai, Jianfei Liu, Christopher Parnell, Ronald M. Summers
目的通过常规腹部 CT 进行身体成分测量，可以对无症状和患病患者进行个性化风险评估。特别是，肌肉和脂肪的衰减和体积测量与重要的临床结果相关，例如心血管事件、骨折和死亡。

Score Distillation Sampling with Learned Manifold Corrective
Authors Thiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu
分数蒸馏采样 SDS 是一种最近但已经广泛流行的方法，它依靠图像扩散模型使用文本提示来控制优化问题。在本文中，我们对 SDS 损失函数进行了深入分析，确定了其公式的固有问题，并提出了一种非常简单但有效的解决方案。具体来说，我们将损失分解为不同的因素，并隔离导致噪声梯度的成分。在最初的配方中，使用高文本指导来解决噪音，从而导致不必要的副作用。相反，我们训练一个浅层网络来模仿图像扩散模型的时间步相关的去噪缺陷，以便有效地将其分解出来。

PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models
Authors Junsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, Zhenguo Li
本技术报告介绍了 PIXART delta ，这是一种文本到图像合成框架，它将潜在一致性模型 LCM 和 ControlNet 集成到先进的 PIXART alpha 模型中。 PIXART alpha 因其通过非常高效的训练过程生成 1024 像素分辨率的高质量图像的能力而受到认可。 PIXART delta 中 LCM 的集成显着加快了推理速度，只需 2 4 个步骤即可生成高质量图像。值得注意的是，PIXART delta 生成 1024x1024 像素图像的时间突破了 0.5 秒，比 PIXART alpha 提高了 7 倍。此外，PIXART delta 设计为可在一天内在 32GB V100 GPU 上进行高效训练。凭借其 8 位推理能力 von Platen 等人，2023，PIXART delta 可以在 8GB GPU 内存限制内合成 1024px 图像，大大增强了其可用性和可访问性。此外，合并类似 ControlNet 的模块可以对文本到图像扩散模型进行细粒度控制。我们引入了一种新颖的 ControlNet Transformer 架构，专为 Transformer 量身定制，可在生成高质量图像的同时实现明确的可控性。

Structure from Duplicates: Neural Inverse Graphics from a Pile of Objects
Authors Tianhang Cheng, Wei Chiu Ma, Kaiyu Guan, Antonio Torralba, Shenlong Wang
我们的世界充满了相同的物体，例如，可乐罐、相同型号的汽车。当将这些重复项放在一起查看时，它们为我们有效地推理 3D 提供了额外且强有力的线索。受这一观察的启发，我们引入了 Structure from Duplicates SfD ，这是一种新颖的逆向图形框架，可以从包含多个相同对象的单个图像中重建几何形状、材质和照明。

Measuring Natural Scenes SFR of Automotive Fisheye Cameras
Authors Daniel Jakab, Eoin Martino Grua, Brian Micheal Deegan, Anthony Scanlan, Pepijn Van De Ven, Ciar n Eising
调制传递函数 MTF 是汽车领域通常使用的重要图像质量指标。然而，尽管光学质量对车辆自动化中计算机视觉的性能有影响，但对于许多公共数据集来说，这个指标是未知的。此外，宽视场 FOV 相机已变得越来越流行，特别是对于低速车辆自动化应用。

Exploring Vulnerabilities of No-Reference Image Quality Assessment Models: A Query-Based Black-Box Method
Authors Chenxi Yang, Yujia Liu, Dingquan Li, Tingting jiang
无参考图像质量评估 NR IQA 旨在预测与人类感知一致的图像质量分数，而不依赖原始参考图像，作为各种视觉任务的关键组成部分。确保 NR IQA 方法的稳健性对于不同图像处理技术的可靠比较和推荐中一致的用户体验至关重要。 NR IQA 的攻击方法为测试 NR IQA 的鲁棒性提供了有力的工具。然而，目前的NR IQA攻击方法严重依赖NR IQA模型的梯度，导致在梯度信息不可用时受到限制。在本文中，我们提出了一种针对 NR IQA 方法的开创性的基于查询的黑盒攻击。我们提出了 emph 分数边界的概念，并利用具有多个分数边界的自适应迭代方法。同时，最初的攻击方向也是利用人类视觉系统HVS的特性来设计的。实验表明，我们的攻击方法优于所有比较的最先进方法，并且远远领先于以前的黑盒方法。有效的 DBCNN 模型在我们的方法的攻击下，Spearman 排序相关系数 SROCC 下降了 0.6972，揭示了 NR IQA 对黑盒攻击的脆弱性。

Video-based Automatic Lameness Detection of Dairy Cows using Pose Estimation and Multiple Locomotion Traits
Authors Helena Russello, Rik van der Tol, Menno Holzhauer, Eldert J. van Henten, Gert Kootstra
这项研究提出了一种自动跛行检测系统，该系统使用深度学习图像处理技术来提取与跛行相关的多种运动特征。使用T LEAP姿势估计模型，从牛行走的视频中提取了九个关键点的运动。视频是在户外录制的，光照条件各异，T LEAP 提取了 99.6 个正确的关键点。然后使用关键点的轨迹来计算六个运动特征：背部姿势测量、头部摆动、跟踪距离、步幅、站立持续时间和摆动持续时间。三个最重要的特征是背部姿势测量、头部摆动和跟踪距离。对于基本事实，我们表明，对观察者分数进行深思熟虑的合并可以提高观察者内部的可靠性和一致性。

CLIP-guided Source-free Object Detection in Aerial Images
Authors Nanqing Liu, Xun Xu, Yongyi Su, Chengxin Liu, Peiliang Gong, Heng Chao Li
域适应在航空图像中至关重要，因为这些图像的视觉表示可能会根据地理位置、时间和天气条件等因素而发生显着变化。此外，高分辨率航拍图像通常需要大量存储空间，并且公众可能无法轻松访问。为了解决这些挑战，我们提出了一种新颖的无源对象检测 SFOD 方法。具体来说，我们的方法是建立在自我训练框架之上的，但是，在没有标记的训练数据的情况下，自我训练可能会导致学习不准确。为了解决这个问题，我们进一步集成对比语言图像预训练 CLIP 来指导伪标签的生成，称为 CLIP 引导聚合。通过利用 CLIP 的零样本分类功能，我们用它来聚合原始预测边界框的分数，使我们能够获得伪标签的精确分数。为了验证我们方法的有效性，我们基于 DIOR 数据集构建了两个来自不同领域的新数据集，分别命名为 DIOR C 和 DIOR Cloudy。

Watermark Text Pattern Spotting in Document Images
Authors Mateusz Krubinski, Stefan Matcovici, Diana Grigore, Daniel Voinea, Alin Ionut Popa
文档图像中的水印文本识别可以提供对经常未被探索的信息源的访问，提供有关记录范围、受众甚至有时甚至真实性的重要证据。由于文本识别、检测和理解文档中的水印的问题在野外也面临同样的困难，书写可以有各种字体、大小和形式，这使得通用识别成为一个非常困难的问题。为了解决该领域资源的缺乏并推动进一步的研究，我们提出了一个新的基准 K Watermark，其中包含使用 Wrender（一种水印文本模式渲染程序）生成的 65,447 个数据样本。使用人类评分者进行的有效性研究相对于预先生成的带水印的文档得出了 0.51 的真实性得分。为了证明数据集和渲染技术的有用性，我们开发了一种端到端解决方案 Wextract，用于检测水印文本的边界框实例，同时预测所描绘的文本。为了处理这个特定任务，我们引入了方差最小化损失和分层自注意力机制。

REACT 2024: the Second Multiple Appropriate Facial Reaction Generation Challenge
Authors Siyang Song, Micol Spitale, Cheng Luo, Cristina Palmero, German Barquero, Hengde Zhu, Sergio Escalera, Michel Valstar, Tobias Baur, Fabien Ringeval, Elisabeth Andre, Hatice Gunes
在二元互动中，人类使用言语和非言语暗示来传达他们的意图和精神状态，其中多种不同的面部反应可能适合响应特定的说话者行为。那么，如何开发一种机器学习 ML 模型，能够根据以前未见过的说话者行为自动生成多种适当的、多样化的、真实的、同步的人类面部反应，是一项具有挑战性的任务。继首届 REACT 挑战赛 REACT 2023 成功组织之后，本次挑战赛 REACT 2024 采用了上一挑战赛使用的子集，其中包含最初记录为 NOXI 和 RECOLA 数据集一部分的分段 30 秒二元交互剪辑，鼓励参与者开发和基准测试机器学习 ML 模型，该模型可以在各种二元视频会议场景下，根据输入对话伙伴的刺激，生成多种适当的面部反应，包括面部图像序列及其属性。本文介绍了 REACT 2024 挑战的指南、挑战中使用的数据集以及基线系统分别在两个拟议子挑战“离线多重适当面部反应生成”和“在线多重适当面部反应生成”上的性能。

MISS: A Generative Pretraining and Finetuning Approach for Med-VQA
Authors Jiawei Chen, Dingkang Yang, Yue Jiang, Yuxuan Lei, Lihua Zhang
医学视觉问答VQA是一项具有挑战性的多模态任务，其中视觉语言预训练VLP模型可以有效提高泛化性能。然而，医学领域的大多数方法将VQA视为答案分类任务，很难迁移到实际应用场景。此外，由于医学图像的隐私性和昂贵的注释过程，严重缺乏用于预训练的大规模医学图像文本对数据集。在本文中，我们提出了一种用于医疗 VQA 任务的基于大规模多任务自监督学习的框架 MISS。与现有方法不同，我们将医学 VQA 视为一项生成任务。我们统一文本编码器和多模态编码器，并通过多任务学习对齐图像文本特征。此外，我们提出了一种传输和描述方法，该方法使用大型语言模型 LLM 扩展单模态图像数据集的特征空间，使这些传统的医学视觉领域任务数据能够应用于 VLP。实验表明，我们的方法用较少的多模态数据集取得了优异的结果，并展示了生成式 VQA 模型的优势。

Derm-T2IM: Harnessing Synthetic Skin Lesion Data via Stable Diffusion Models for Enhanced Skin Disease Classification using ViT and CNN
Authors Muhammad Ali Farooq, Wang Yao, Michael Schukat, Mark A Little, Peter Corcoran
本研究探索利用通过稳定扩散模型生成的皮肤镜合成数据作为增强机器学习模型训练稳健性的策略。合成数据生成在缓解与有限标记数据集相关的挑战方面发挥着关键作用，从而促进更有效的模型训练。在这种背景下，我们的目标是通过将最近成功的少量镜头学习和文本中的少量数据表示扩展到图像潜在扩散模型来结合增强的数据转换技术。经过优化调整的模型进一步用于渲染具有多样化和真实特征的高质量皮肤病变合成数据，为现有训练数据提供了有价值的补充和多样性。我们研究了将新生成的合成数据纳入最先进的机器学习模型的训练流程中的影响，评估其在增强模型性能和对未见过的现实世界数据的泛化方面的有效性。

Toward distortion-aware change detection in realistic scenarios
Authors Yitao Zhao, Heng Chao Li, Nanqing Liu, Rui Wang
在传统的变化检测CD管道中，两个手动注册和标记的遥感数据集作为训练和预测模型的输入。然而，在现实场景中，由于坐标系不同，来自不同时期或传感器的数据可能无法对齐。坐标偏移引起的几何畸变仍然是 CD 算法的棘手问题。在本文中，我们提出了一种可重用的自监督框架，用于 CD 任务中的双时态几何失真。整个框架由借口表示预训练、双时图像对齐和下游解码器微调组成。只需单阶段预训练，框架的关键组件就可以重复使用以帮助双时图像对齐，同时增强 CD 解码器的性能。

CrossDiff: Exploring Self-Supervised Representation of Pansharpening via Cross-Predictive Diffusion Model
Authors Yinghui Xing, Litao Qu, ShiZhou Zhang, Xiuwei Zhang, Yanning Zhang
全色PAN图像和相应的多光谱MS图像的融合也称为全色锐化，其目的是将PAN丰富的空间细节和MS的光谱信息结合起来。由于缺乏高分辨率 MS 图像，可用的基于深度学习的方法通常遵循降低分辨率训练以及降低分辨率和全分辨率测试的范式。当以原始 MS 和 PAN 图像作为输入时，由于尺度变化，它们总是获得次优结果。在本文中，我们建议通过设计一个名为 CrossDiff 的交叉预测扩散模型来探索全色锐化的自监督表示。它有两个阶段的训练。在第一阶段，我们引入交叉预测借口任务来预训练基于条件DDPM的UNet结构，而在第二阶段，UNet的编码器被冻结以直接从PAN和MS中提取空间和光谱特征，并且仅融合头经过训练以适应全色锐化任务。大量的实验表明，与最先进的监督和无监督方法相比，所提出的模型的有效性和优越性。此外，跨传感器实验还验证了所提出的自监督表示学习器对其他卫星数据集的泛化能力。

Efficient Fine-Tuning with Domain Adaptation for Privacy-Preserving Vision Transformer
Authors Teru Nagamori, Sayaka Shiota, Hitoshi Kiya
我们提出了一种使用 Vision Transformer ViT 保护深度神经网络 DNN 隐私的新方法。该方法不仅使我们能够使用受视觉保护的图像来训练模型和进行测试，而且还可以避免由于使用加密图像而导致的性能下降，而传统方法无法避免图像加密的影响。域适应方法用于有效地微调 ViT 和加密图像。

SwiMDiff: Scene-wide Matching Contrastive Learning with Diffusion Constraint for Remote Sensing Image
Authors Jiayuan Tian, Jie Lei, Jiaqing Zhang, Weiying Xie, Yunsong Li
随着航空航天技术的最新进步，未标记的遥感图像RSI数据量急剧增加。通过自我监督学习 SSL 有效利用这些数据在遥感领域至关重要。然而，当前的方法，特别是对比学习 CL（一种领先的 SSL 方法），在该领域遇到了特定的挑战。首先，CL经常错误地将具有相似语义内容的地理上相邻的样本识别为负对，导致模型训练过程中的混乱。其次，作为实例级判别任务，它往往忽略非结构化 RSI 固有的细粒度特征和复杂细节。为了克服这些障碍，我们引入了 SwiMDiff，这是一种专为 RSI 设计的新型自监督预训练框架。 SwiMDiff 采用场景范围匹配方法，可以有效地重新校准标签，以将来自同一场景的数据识别为漏报。这一调整使 CL 更适用于遥感的细微差别。此外，SwiMDiff 将 CL 与扩散模型无缝集成。通过实施像素级扩散约束，我们增强了编码器更全面地捕获图像的全局语义信息和细粒度特征的能力。我们提出的框架显着丰富了遥感下游任务可用的信息。

Application of Deep Learning in Blind Motion Deblurring: Current Status and Future Prospects
Authors Yawen Xiang, Heng Zhou, Chengyang Li, Fangwei Sun, Zhongbo Li, Yongqiang Xie
运动去模糊是计算机视觉的基本问题之一，受到持续关注。图像内部和图像之间的模糊变化对依赖于估计模糊内核的非盲去模糊技术施加了限制。作为回应，盲运动去模糊应运而生，旨在在深度学习方法进步的推动下，在不事先了解模糊类型的情况下恢复清晰详细的图像。尽管该领域取得了长足的进步，但基于深度学习的盲运动去模糊的最新进展的全面综合仍然明显缺乏。本文通过详尽概述深度学习在盲运动去模糊中的作用（包括过去六年开发的数据集、评估指标和方法）来填补这一空白。具体来说，我们首先介绍运动模糊的类型和去模糊的基本原理。接下来，我们概述了传统非盲去模糊算法的缺点，强调了采用深度学习技术进行去模糊任务的优势。接下来，我们根据不同的骨干网络对现有的盲运动去模糊方法进行分类和总结，包括卷积神经网络、生成对抗网络、循环神经网络和 Transformer 网络。随后，我们不仅阐述了这些不同类别的基本原理，还对它们的优点和局限性进行了全面的总结和比较。在四个广泛使用的数据集上进行的定性和定量实验结果进一步比较了 SOTA 方法的性能。最后，分析当前的挑战和未来的路径。

Content-Aware Depth-Adaptive Image Restoration
Authors Tom Richard Vargis, Siavash Ghiasvand
这项工作优先考虑构建一个模块化管道，利用现有模型系统地恢复图像，而不是从头开始创建新的恢复模型。恢复是在对象特定级别进行的，每个对象使用其相应的类标签信息重新生成。该方法的突出之处在于为用户提供了对整个恢复过程的完全控制。用户可以选择专门的恢复步骤的模型，自定义步骤顺序以满足他们的需求，并通过深度感知来细化生成的再生图像。该研究提供了两种不同的实现图像再生的途径，可以比较它们各自的优点和局限性。这个多功能系统最引人注目的方面是它的适应性。

AdvMT: Adversarial Motion Transformer for Long-term Human Motion Prediction
Authors Sarmad Idrees, Jongeun Choi, Seokman Sohn
为了在共享环境中实现机器人和人类之间的无缝协作，准确预测未来的人类运动至关重要。传统上，人体运动预测被视为序列预测问题，利用历史人体运动数据来估计未来的姿势。从普通的循环网络开始，研究界研究了各种学习人体运动动力学的方法，包括基于图的方法和生成方法。尽管做出了这些努力，实现准确的长期预测仍然是一个重大挑战。在这方面，我们提出了对抗性运动变换器 AdvMT，这是一种集成了基于变换器的运动编码器和时间连续性鉴别器的新颖模型。这种组合有效地在帧内同时捕获空间和时间依赖性。通过对抗性训练，我们的方法有效地减少了预测中不需要的伪影，从而确保学习更真实、更流畅的人体动作。

Source-Free Cross-Modal Knowledge Transfer by Unleashing the Potential of Task-Irrelevant Data
Authors Jinjing Zhu, Yucheng Chen, Lin Wang
无源跨模态知识转移是一项至关重要但具有挑战性的任务，其目的是将知识从单一源模态（例如 RGB）转移到目标模态（例如深度或红外），但由于内存和隐私问题而无法访问任务相关的 TR 源数据。最近的一项尝试利用与任务无关的 TI 数据进行配对，并直接匹配其中的特征以消除模态差距。然而，它忽略了一个关键线索，即配对的 TI 数据可用于有效估计源数据分布并更好地促进知识向目标模态的迁移。为此，我们提出了一个新颖而简洁的框架来释放配对 TI 数据的潜力，以增强无源跨模式知识转移。我们的工作由两个关键技术组成部分支撑。首先，为了更好地估计源数据分布，我们引入了任务无关数据引导模态桥接 TGMB 模块。它基于配对 TI 数据和可用源模型的指导，将目标模态数据（例如红外）转换为源（如 RGB 图像），以缓解两个关键差距 1 配对 TI 数据之间的模态间间隙 2 TI 和 TR 之间的模态内间隙目标数据。然后，我们提出了一个与任务无关的数据引导知识转移 TGKT 模块，该模块通过利用配对的 TI 数据将知识从源模型转移到目标模型。值得注意的是，由于 TR 目标数据的标签不可用，并且源模型的预测不太可靠，我们的 TGKT 模型采用了自我监督的伪标签方法，使目标模型能够从其预测中学习。

Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object Detection
Authors Yucheng Han, Na Zhao, Weiling Chen, Keng Teck Ma, Hanwang Zhang
半监督 3D 对象检测是一个有前途但尚未探索的方向，可降低数据注释成本，尤其是对于杂乱的室内场景。一些先前的工作，例如 SESS 和 3DIoUMatch，试图通过利用教师模型为未标记的样本生成伪标签来解决此任务。然而，由于收集 3D 数据需要付出更大的努力，因此与 2D 领域相比，3D 领域中未标记样本的可用性相对有限。此外，SESS 中的松散一致性正则化和 3DIoUMatch 中的受限伪标签选择策略导致低质量监督或有限数量的伪标签。为了解决这些问题，我们提出了一种新颖的双视角知识丰富方法，称为 DPKE，用于半监督 3D 对象检测。我们的DPKE从数据角度和特征角度两个角度丰富了有限训练数据，特别是未标记数据的知识。具体来说，从数据的角度来看，我们提出了一种类概率数据增强方法，该方法根据类概率的变化分布使用额外的实例来增强输入数据。我们的 DPKE 通过设计一种几何感知特征匹配方法来实现特征透视知识丰富，该方法可以规范学生模型和教师模型的对象建议之间的特征级别相似性。对两个基准数据集的广泛实验表明，我们的 DPKE 在各种标签比率条件下比现有的最先进方法实现了卓越的性能。

Less is More : A Closer Look at Multi-Modal Few-Shot Learning
Authors Chunpeng Zhou, Haishuai Wang, Xilu Yuan, Zhi Yu, Jiajun Bu
Few shot Learning 旨在利用数量非常有限的可用图像来学习和区分新类别，这在深度学习领域提出了重大挑战。最近的研究人员试图利用这些罕见类别的额外文本或语言信息与预先训练的语言模型来促进学习，从而部分缓解监督信号不足的问题。然而，迄今为止，在少数镜头学习中，文本信息和预训练语言模型的全部潜力被低估，导致性能提升有限。为了解决这个问题，我们为少量镜头学习任务提出了一个简单但有效的框架，专门设计用于利用文本信息和语言模型。更详细地说，我们通过可学习的提示明确地利用了预训练语言模型的零样本功能。我们只是将视觉特征与文本特征直接相加进行推理，而不需要像之前的作品那样复杂地设计融合模块。此外，我们应用自集成和蒸馏来进一步增强这些组件。我们在四个广泛使用的少量镜头数据集上进行的广泛实验表明，我们的简单框架取得了令人印象深刻的结果。特别值得关注的是它在 1 shot 学习任务中的出色表现，在分类精度方面平均超过最先进的方法 3.0。脚注我们将在接受后公开拟议框架的源代码。

Optimising Graph Representation for Hardware Implementation of Graph Convolutional Networks for Event-based Vision
Authors Kamil Jeziorek, Piotr Wzorek, Krzysztof Blachut, Andrea Pinna, Tomasz Kryjak
基于事件的视觉是一个新兴的研究领域，涉及处理动态视觉传感器神经形态相机生成的数据。该领域的最新提议之一是图卷积网络 GCN，它允许以原始稀疏形式处理事件，同时保持较高的检测和分类性能。在本文中，我们考虑了 FPGA 的优点和局限性，介绍了从事件摄像机数据流生成图形的硬件实现过程。我们提出了各种方法来简化图形表示并使用值的缩放和量化。我们考虑使用 PointNet 卷积的无向图和有向图。获得的结果表明，通过适当修改图表示，可以创建用于图生成的硬件模块。

MGNet: Learning Correspondences via Multiple Graphs
Authors Luanyuan Dai, Xiaoyu Du, Hanwang Zhang, Jinhui Tang
学习对应关系的目的是从对应分布不均匀且内点率较低的初始对应集中找到正确的对应内点，可以将其视为图数据。最近的进展通常使用图神经网络 GNN 来构建单一类型的图，或者简单地将局部图堆叠到全局图中来完成任务。但他们忽略了不同类型图之间的互补关系，而这种关系可以有效捕获稀疏对应关系之间的潜在关系。为了解决这个问题，我们提出 MGNet 来有效地组合多个互补图。为了获得集成隐式和显式局部图的信息，我们从隐式和显式方面构建局部图，并将它们有效地结合起来，用于构建全局图。此外，我们提出了图软度注意力GSDA，以充分利用全局图中的所有稀疏对应信息，可以捕获和放大判别性特征。大量实验表明 MGNet 在不同的视觉任务中优于最先进的方法。

HaltingVT: Adaptive Token Halting Transformer for Efficient Video Recognition
Authors Qian Wu, Ruoxuan Cui, Yuke Li, Haoqi Zhu
视频中的动作识别由于其高计算成本而提出了挑战，特别是对于联合时空视频转换器 Joint VT 而言。尽管它们很有效，但此类架构中过多的代币极大地限制了它们的效率。在本文中，我们提出了 HaltingVT，一种高效的视频转换器，可自适应删除冗余视频补丁标记，它主要由 Joint VT 和 Glimpser 模块组成。具体来说，HaltingVT 在每一层应用数据自适应令牌缩减，从而显着降低总体计算成本。此外，Glimpser 模块可以快速删除浅层转换器层中的冗余标记，根据我们的观察，这甚至可能会误导视频识别任务。为了进一步鼓励 HaltingVT 关注视频中的关键运动相关信息，我们在训练期间设计了有效的运动损失。 HaltingVT 在统一的训练过程中同时获得视频分析能力和令牌停止压缩策略，无需额外的训练过程或子网络。在 Mini Kinetics 数据集上，我们以 24.2 GFLOPs 实现了 75.0 top 1 ACC，并以极低的 9.9 GFLOPs 实现了 67.2 top 1 ACC。

Large Model based Sequential Keyframe Extraction for Video Summarization
Authors Kailong Tan, Yuxiang Zhou, Qianchen Xia, Rui Liu, Yong Chen
关键帧提取的目的是用最少的帧数总结视频的语义。本文提出了一种基于大型模型的视频摘要序列关键帧提取，称为LMSKE，它包含以下三个阶段。首先，我们使用大型模型 TransNetV21 将视频切割成连续镜头，并使用大型模型 CLIP2 生成每个镜头内的每个帧的视觉特征。其次，我们开发一种自适应聚类算法来为每个镜头生成候选关键帧，每个镜头第三，我们通过每个镜头内的冗余消除进一步减少上述候选关键帧，最后按照镜头顺序将它们连接起来作为最终的顺序关键帧。

ECC-PolypDet: Enhanced CenterNet with Contrastive Learning for Automatic Polyp Detection
Authors Yuncheng Jiang, Zixun Zhang, Yiwen Hu, Guanbin Li, Xiang Wan, Song Wu, Shuguang Cui, Silin Huang, Zhen Li
准确的息肉检测对于早期结直肠癌诊断至关重要。尽管近年来取得了显着的进展，但复杂的结肠环境和边界不清晰的隐匿性息肉仍然给该领域带来严峻的挑战。现有方法要么涉及计算成本高昂的上下文聚合，要么缺乏息肉的事先建模，导致在具有挑战性的情况下表现不佳。在本文中，我们提出了具有对比学习 ECC PolypDet 的增强型 CenterNet，这是一个两阶段训练端到端推理框架，利用图像和边界框注释来训练通用模型并根据推理分数对其进行微调以获得最终的鲁棒性模型。具体来说，我们在训练期间进行 Box 辅助对比学习 BCL，以最小化类内差异并最大化前景息肉和背景之间的类间差异，使我们的模型能够捕获隐藏的息肉。此外，为了增强对小息肉的识别，我们设计了语义流引导的特征金字塔网络 SFFPN 来聚合多尺度特征，并设计了热图传播 HP 模块来提高模型对息肉目标的注意力。在微调阶段，我们引入了 IoU 引导的样本重新加权 ISR 机制，通过在微调过程中自适应调整每个样本的损失权重来优先考虑硬样本。

EmMixformer: Mix transformer for eye movement recognition
Authors Huafeng Qin, Hongyu Zhu, Xin Jin, Qun Song, Mounim A. El Yacoubi, Xinbo Gao
眼动EM是一种新型的高度安全的生物识别行为方式，近年来受到越来越多的关注。尽管深度神经网络（例如卷积神经网络 CNN）最近取得了可喜的性能，但当前的解决方案无法捕获眼动数据中的局部和全局时间依赖性。为了克服这个问题，我们在本文中提出了一种称为 EmMixformer 的混合变压器来提取时域和频域信息以进行眼动识别。为此，我们提出了一个由三个模块组成的混合块：变压器、注意力长期短期记忆注意力 LSTM 和傅里叶变压器。我们是第一个尝试利用 Transformer 来学习眼球运动中的长期时间依赖性的人。其次，我们将注意力机制融入到 LSTM 中，提出注意力 LSTM，旨在学习短时间依赖性。第三，我们在频域中进行自注意力以学习全局特征。由于这三个模块在局部和全局依赖性方面提供了互补的特征表示，因此所提出的 EmMixformer 能够提高识别精度。

Latency-aware Road Anomaly Segmentation in Videos: A Photorealistic Dataset and New Metrics
Authors Beiwen Tian, Huan ang Gao, Leiyao Cui, Yupeng Zheng, Lan Luo, Baofeng Wang, Rong Zhi, Guyue Zhou, Hao Zhao
在过去的几年里，道路异常分割在学术界得到了积极的探索，并越来越受到业界的关注。背后的原理很简单，如果自动驾驶汽车能够在撞到异常物体之前刹车，那么安全性就会得到提升。然而，这种基本原理自然需要一个临时知情的设置，而现有的方法和基准是以不切实际的框架方式设计的。为了弥补这一差距，我们贡献了第一个用于自动驾驶的视频异常分割数据集。由于将各种异常物体放置在繁忙的道路上并在每一帧中对其进行注释既危险又昂贵，因此我们求助于合成数据。为了提高这个合成数据集与现实世界应用的相关性，我们训练了一个以渲染 G 缓冲区为条件的生成对抗网络，以增强照片真实感。我们的数据集由 7 个不同城镇记录的 120,000 个 60 FPS 帧速率的高分辨率帧组成。作为初始基准测试，我们使用最新的监督和无监督道路异常分割方法提供基线。除了传统的指标之外，我们还关注两个新指标时间一致性和延迟感知流准确性。

Diffusion-based Pose Refinement and Muti-hypothesis Generation for 3D Human Pose Estimaiton
Authors Hongbo Kang, Yong Wang, Mengyuan Liu, Doudou Wu, Peng Liu, Xinlin Yuan, Wenming Yang
之前的 3D 人体姿势估计 3DHPE 概率模型旨在通过生成多个假设来提高姿势准确性。然而，大多数生成的假设与真实姿势有很大偏差。与确定性模型相比，概率模型过多的不确定性导致单一假设预测的性能较差。为了解决这两个挑战，我们提出了一种名为 DRPose 的基于扩散的细化框架，该框架通过反向扩散细化确定性模型的输出，并通过使用多个噪声的多步细化实现针对当前姿态基准的更合适的多假设预测。为此，我们提出了可扩展图卷积变换器 SGCT 和用于去噪和细化的姿势细化模块 PRM。对 Human3.6M 和 MPI INF 3DHP 数据集进行的大量实验表明，我们的方法在单假设和多假设 3DHPE 上均实现了最先进的性能。

SnapCap: Efficient Snapshot Compressive Video Captioning
Authors Jianqiao Sun, Yudi Su, Hao Zhang, Ziheng Cheng, Zequn Zeng, Zhengjue Wang, Bo Chen, Xin Yuan
视频字幕 VC 是一项具有挑战性的多模态任务，因为它需要通过理解各种复杂的视频来用语言描述场景。对于机器来说，传统的视频编码遵循图像压缩解码和字幕流水线，其中压缩是存储和传输的关键。然而，在这样的管道中，一些潜在的缺点是不可避免的，即信息冗余导致字幕采样过程中的效率低下和信息丢失。为了解决这些问题，在本文中，我们提出了一种新颖的 VC 管道，直接从压缩测量生成字幕，该字幕可以由快照压缩传感相机捕获，我们将我们的模型称为 SnapCap。更具体地说，受益于信号模拟，我们可以为我们的模型获得丰富的测量视频注释数据对。此外，为了更好地从压缩测量中提取与语言相关的视觉表示，我们建议通过预先训练的 CLIP 从视频中提取知识，并具有丰富的语言视觉关联，以指导 SnapCap 的学习。为了证明 SnapCap 的有效性，我们在两个广泛使用的 VC 数据集上进行了实验。定性和定量结果都验证了我们的管道相对于传统 VC 管道的优越性。

Knowledge-aware Graph Transformer for Pedestrian Trajectory Prediction
Authors Yu Liu, Yuexin Zhang, Kunming Li, Yongliang Qiao, Stewart Worrall, You Fu Li, He Kong
预测行人运动轨迹对于自动驾驶车辆的路径规划和运动控制至关重要。由于不同环境中人体运动的不确定性，准确预测人群轨迹具有挑战性。对于训练，最近基于深度学习的预测方法主要利用轨迹历史和行人之间的交互等信息。由于训练数据集之间的差异尚未正确纳入，这可能会限制各种场景的预测性能。为了克服这一限制，本文提出了一种图转换器结构来提高预测性能，捕获数据集中包含的各个站点和场景之间的差异。特别是，设计了自注意力机制和领域适应模块来提高模型的泛化能力。此外，出于训练和性能评估目的，引入了考虑跨数据集序列的附加度量。使用流行的公共数据集（即 ETH 和 UCY）对所提出的框架进行了验证并与现有方法进行了比较。

CTNeRF: Cross-Time Transformer for Dynamic Neural Radiance Field from Monocular Video
Authors Xingyu Miao, Yang Bai, Haoran Duan, Yawen Huang, Fan Wan, Yang Long, Yefeng Zheng
我们工作的目标是从复杂和动态场景的单眼视频中生成高质量的新颖视图。先前的方法，例如 DynamicNeRF，通过利用随时间变化的动态辐射场而显示出令人印象深刻的性能。然而，这些方法在精确建模复杂物体的运动时存在局限性，这可能导致细节渲染不准确和模糊。为了解决这个限制，我们提出了一种基于最近的泛化 NeRF 的新方法，它将附近的视图聚合到新的观点上。然而，此类方法通常仅对静态场景有效。为了克服这一挑战，我们引入了一个在时域和频域中运行的模块来聚合对象运动的特征。这使我们能够学习帧之间的关系并生成更高质量的图像。我们的实验证明了动态场景数据集上最先进方法的显着改进。

Modality-Aware Representation Learning for Zero-shot Sketch-based Image Retrieval
Authors Eunyi Lyou, Doyeon Lee, Jooeun Kim, Joonseok Lee
零样本学习为机器学习模型提供了一种有效的解决方案来处理看不见的类别，避免详尽的数据收集。基于零镜头草图的图像检索 ZS SBIR 模拟现实世界的场景，在这些场景中，收集配对草图照片样本既困难又昂贵。我们提出了一种新颖的框架，通过文本对比草图和照片来间接对齐草图和照片，从而消除了访问草图照片对的必要性。通过从数据中学习到的显式模态编码，我们的方法将模态不可知的语义与模态特定信息分开，弥合模态间隙并在联合潜在空间内实现有效的跨模态内容检索。

Refining Remote Photoplethysmography Architectures using CKA and Empirical Methods
Authors Nathan Vance, Patrick Flynn
模型架构细化是远程光电体积描记 rPPG 等深度学习研究领域的一项具有挑战性的任务。一种架构考虑因素，即模型的深度，可能会对最终的性能产生重大影响。在过度配置过多层的 rPPG 模型中，存在冗余，消除冗余可以加快训练速度并减少推理时的计算负载。如果层数太少，模型可能会表现出次优的错误率。我们将中心核对齐 CKA 应用于不同深度的 rPPG 架构阵列，证明较浅的模型不会学习与较深的模型相同的表示，并且在达到一定深度后，添加冗余层而不会显着增加功能。

DedustNet: A Frequency-dominated Swin Transformer-based Wavelet Network for Agricultural Dust Removal
Authors Shengli Zhang, Zhiyong Tao, Sen Lin
虽然灰尘显着影响自动化农业机械的环境感知，但现有的基于深度学习的除尘方法需要在该领域进一步研究和改进，以提高农业自动化农业机械的性能和可靠性。我们提出了一种端到端可训练学习网络 DedustNet 来解决现实世界的农业除尘任务。据我们所知，DedustNet 是首次在小波网络中使用基于 Swin Transformer 的单元来进行农业图像除尘。具体来说，我们通过向 Swin Transformer 添加空间特征聚合方案 SFAS 并将其与小波变换、DWTFormer 块和 IDWTFormer 块相结合，提出了频率主导块 DWTFormer 块和 IDWTFormer 块，减轻了 Swin 全局感受野的限制处理复杂的灰尘背景时的变压器。此外，我们提出了一个跨级信息融合模块来融合不同级别的特征并有效捕获全局和远程特征关系。此外，我们提出了一种扩张卷积模块来捕获多尺度小波变换引导的上下文信息，它结合了小波变换和扩张卷积的优点。我们的算法利用深度学习技术有效去除图像中的灰尘，同时保留原始的结构和纹理特征。与现有最先进的方法相比，DedustNet在农业图像除尘方面取得了更优越的性能和更可靠的结果，为农业机械在粉尘环境下的应用提供了有力的支持。

Convolutional Neural Network Ensemble Learning for Hyperspectral Imaging-based Blackberry Fruit Ripeness Detection in Uncontrolled Farm Environment
Authors Chollette C. Olisah, Ben Trewhella, Bo Li, Melvyn L. Smith, Benjamin Winstone, E. Charles Whitfield, Felicidad Fern ndez Fern ndez, Harriet Duncalfe
几十年来，水果成熟度估计模型一直依赖于光谱指数特征或基于颜色的特征，例如平均值、标准差、偏度、颜色矩和/或直方图来学习水果成熟度的特征。最近，很少有研究探索使用深度学习技术从具有可见成熟度线索的水果图像中提取特征。然而，黑莓悬钩子果实成熟时并没有表现出明显且可靠的成熟度可见特征，因此给采摘者带来了很大的困难。对于人眼来说，成熟的黑莓在成熟前、成熟中和成熟后都是黑色的。为了解决这一工程应用挑战，本文提出了一种新型多输入卷积神经网络 CNN 集成分类器，用于检测黑莓果实成熟度的细微特征。多输入 CNN 是根据在 ImageNet 数据集上训练的预训练视觉几何组 16 层深度卷积网络 VGG16 模型创建的。全连接层经过优化，可学习成熟黑莓果实的成熟度特征。由此产生的模型作为构建同质集成学习器的基础，这些学习器是使用堆栈泛化集成 SGE 框架进行集成的。网络的输入是使用波长为 700 nm 和 770 nm 的可见光和近红外 VIS NIR 光谱滤波器通过立体传感器采集的图像。通过实验，所提出的模型在未见过的集合上达到了 95.1 的准确率，在现场条件下达到了 90.2 的准确率。

Content-Conditioned Generation of Stylized Free hand Sketches
Authors Jiajun Liu, Siyuan Wang, Guangming Zhu, Liang Zhang, Ning Li, Eryang Gao
近年来，手绘草图的识别仍然是一项热门任务。但在军事领域等一些特殊领域，徒手草图很难大规模采样。常见的数据增强和图像生成技术很难生成具有各种手绘草图风格的图像。因此，相关领域的识别和分割任务受到限制。在本文中，我们提出了一种新颖的对抗性生成网络，可以准确生成各种风格的逼真手绘草图。我们探索了模型的性能，包括使用从先验正态分布中随机采样的样式来生成具有各种手绘草图风格的图像，将画家风格与已知的手绘草图分离以生成具有特定风格的图像，以及生成未知类别的图像不在训练集中。

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video
Authors Kevin Cai, Chonghua Liu, David M. Chan
互联网内容丰富，其中以英语发布的内容多达 60 条，这与全球人口形成鲜明对比，全球人口中只有 18.8 人以英语为母语，只有 5.1 人将英语视为自己的母语，这导致了在线信息获取的差异。不幸的是，由于管道的原因，用翻译后的替代方案替换视频音轨的视频配音自动化过程仍然是一项复杂且具有挑战性的任务，需要精确的计时、面部运动同步和韵律匹配。虽然端到端配音提供了一种解决方案，但数据稀缺仍然阻碍着端到端和基于管道的方法的进展。在这项工作中，我们介绍了 Anim 400K，这是一个包含超过 425K 对齐的日语和英语动画视频片段的综合数据集，支持各种视频相关任务，包括自动配音、同声翻译、引导视频摘要和流派主题风格分类。

Strategic Client Selection to Address Non-IIDness in HAPS-enabled FL Networks
Authors Amin Farajzadeh, Animesh Yadav, Halim Yanikomeroglu
在垂直异构网络（例如由高空平台站 HAPS 支持的网络）中部署联邦学习 FL，提供了吸引广泛客户的机会，每个客户都具有不同的通信和计算能力。这种多样性不仅提高了 FL 模型的训练精度，而且加速了它们的收敛。然而，在这些广阔的网络中应用 FL 会带来显着的挑战，特别是客户端数据分布中显着的非独立同分布性。这种数据异构性通常会导致收敛速度变慢并降低模型训练性能的有效性。我们的研究引入了一种针对解决此问题而定制的客户选择策略，利用用户网络流量行为。该策略涉及根据客户的网络使用模式对客户进行预测和分类，同时优先考虑用户隐私。通过战略性地选择数据表现出相似模式的客户来参与 FL 培训，我们的方法在整个网络中促进了更加统一和具有代表性的数据分布。

DISCOVER: 2-D Multiview Summarization of Optical Coherence Tomography Angiography for Automatic Diabetic Retinopathy Diagnosis
Authors Mostafa El Habib Daho, Yihao Li, Rachid Zeghlache, Hugo Le Boit , Pierre Deman, Laurent Borderie, Hugang Ren, Niranchana Mannivanan, Capucine Lepicard, B atrice Cochener, Aude Couturier, Ramin Tadayoni, Pierre Henri Conze, Mathieu Lamard, Gwenol Quellec
糖尿病视网膜病变 DR 是糖尿病的一种眼部并发症，是全球失明的主要原因。传统上，DR 使用彩色眼底摄影 CFP（一种广泛使用的 2D 成像方式）进行监测。然而，基于CFP的DR分类预测能力较差，导致DR管理不理想。光学相干断层扫描血管造影 OCTA 是一种最新的 3D 成像方式，可提供增强的血流结构和功能信息以及更宽的视野。本文研究了使用 3 D OCTA 进行自动 DR 严重性评估。此任务的一个直接解决方案是 3D 神经网络分类器。然而，3D 架构具有大量参数，通常需要大量训练样本。更轻的解决方案包括使用 2D 神经网络分类器处理 2D 正面或正面投影和/或 2D 横截面切片。这种方法模仿了眼科医生分析 OCTA 采集的方式，例如，1 个面部血流图通常用于检测无血管区域和新血管形成，并且通常分析 2 个横截面切片以检测黄斑水肿。然而，任意的数据缩减或选择可能会导致信息丢失。因此，提出了两种互补策略，以通过 2D 图像最佳地总结 OCTA 体积：1 通过深度学习优化的参数化正面投影，2 通过基于梯度的归因控制的横截面切片选择过程。完整的摘要和 DR 分类管道是端到端训练的。自动二维摘要可以显示在查看器中或打印在报告中以支持决策。

Inconsistency-Based Data-Centric Active Open-Set Annotation
Authors Ruiyu Mao, Ouyang Xu, Yunhui Guo
主动学习是一种常用的方法，可以减少训练深度神经网络所需的标记工作。然而，当前主动学习方法的有效性受到其封闭世界假设的限制，该假设假设未标记池中的所有数据都来自一组预定义的已知类。这种假设在实际情况中通常是无效的，因为未标记数据中可能存在未知类，从而导致主动开放集注释问题。由于引入的不确定性，数据中未知类的存在可能会显着影响现有主动学习方法的性能。为了解决这个问题，我们提出了一种名为 NEAT 的新型以数据为中心的主动学习方法，它可以主动注释开放集数据。 NEAT 旨在标记已知和未知类未标记数据池中的已知类数据。它利用标签的可聚类性从未标记的池中识别已知类别，并根据衡量模型预测和局部特征分布之间不一致的一致性标准从这些类别中选择信息样本。与最近针对同一问题提出的以学习为中心的方法不同，NEAT 的计算效率更高，并且是一种以数据为中心的主动开放集注释方法。

SOS-SLAM: Segmentation for Open-Set SLAM in Unstructured Environments
Authors Jouko Kinnari, Annika Thomas, Parker Lusk, Kota Kondo, Jonathan P. How
我们提出了一种在非结构化环境中进行开放集同步定位和建图 SLAM 的新颖框架，该框架使用分段来创建对象地图以及对象之间的几何关系以进行定位。我们的系统包括 1 个前端映射管道，使用零镜头分割模型从图像中提取对象蒙版并跨帧跟踪它们以生成基于对象的地图，以及 2 个帧对齐管道，该管道使用对象的几何一致性来高效定位在各种条件下拍摄的地图。与传统的基于特征的 SLAM 系统或全局描述符方法相比，这种方法对光照和外观的变化更加鲁棒。这是通过在 Batvik 季节性数据集上评估 SOS SLAM 来建立的，该数据集包括在不同季节和照明条件下在芬兰南部沿海地区收集的无人机飞行数据。在不同环境条件下的飞行中，我们的方法比基准方法实现了更高的召回率，精度为 1.0。 SOS SLAM 在参考地图中的定位速度比其他基于特征的方法快 14 倍，并且地图大小小于最紧凑的其他地图大小的 0.4。当从不同的角度考虑本地化性能时，我们的方法优于同一角度的所有基准测试以及不同角度的大多数基准测试。 SOS SLAM 是非结构化环境中一种很有前途的 SLAM 新方法，它对光照和外观的变化具有鲁棒性，并且比其他方法的计算效率更高。

DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation
Authors Junming Chen, Yunfei Liu, Jianan Wang, Ailing Zeng, Yu Li, Qifeng Chen
我们提出了 DiffSHEG，一种基于扩散的方法，用于语音驱动的整体 3D 表达和任意长度的手势生成。虽然以前的工作主要集中在单独的语音手势或表情生成上，但同步表情和手势的联合生成仍然很少被探索。为了解决这个问题，我们基于扩散的协同语音运动生成转换器能够实现从表情到手势的单向信息流，从而促进改进联合表情手势分布的匹配。此外，我们引入了一种基于外画的采样策略，用于扩散模型中的任意长序列生成，提供了灵活性和计算效率。我们的方法提供了一种实用的解决方案，可以产生由语音驱动的高质量同步表达和手势生成。通过对两个公共数据集的评估，我们的方法在定量和定性方面都实现了最先进的性能。此外，一项用户研究证实了 DiffSHEG 相对于先前方法的优越性。

Skin Cancer Segmentation and Classification Using Vision Transformer for Automatic Analysis in Dermatoscopy-based Non-invasive Digital System
Authors Galib Muhammad Shahriar Himel, Md. Masudul Islam, Kh Abdullah Al Aff, Shams Ibne Karim, Md. Kabir Uddin Sikder
皮肤癌是一个全球性的健康问题，需要早期准确的诊断以改善患者的治疗结果。这项研究引入了一种突破性的皮肤癌分类方法，采用了 Vision Transformer，这是一种最先进的深度学习架构，以其在各种图像分析任务中的成功而闻名。该模型利用包含 10,015 个精心注释的皮肤病变图像的 HAM10000 数据集，进行预处理以增强鲁棒性。适应皮肤癌分类任务的 Vision Transformer 利用自注意力机制来捕获复杂的空间依赖性，实现了优于传统深度学习架构的性能。 Segment Anything Model 有助于精确分割癌变区域，获得高 IOU 和 Dice 系数。

Segment anything model (SAM) for brain extraction in fMRI studies
Authors Dwith Chenna, Suyash Bhogawar
从磁共振图像中提取大脑并去除头骨伪影 MRI 是神经影像分析中重要的预处理步骤。有许多工具被开发来处理人类功能磁共振成像图像，这可能涉及验证大脑分割结果的手动步骤，这使得它既耗时又低效。在本研究中，我们将使用分段任何模型 SAM ，这是 Meta 4 发布的免费神经网络，它在许多通用分段应用中显示了有希望的结果。我们将通过去除头骨伪影来分析 SAM 在神经成像大脑分割中的效率。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(视觉,Papers,计算机视觉,计算机视觉,CV)

代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
元宇宙中的视觉技术：虚拟化身与场景生成 xcLeigh 计算机视觉CV 元宇宙虚拟化身场景生成 AIGC 数字孪生
元宇宙中的视觉技术：虚拟化身与场景生成前言一、元宇宙与视觉技术的深度关联1.1元宇宙概念深度剖析1.2视觉技术：元宇宙的“灵魂之窗”二、虚拟化身：数字世界的“第二自我”2.1虚拟化身技术的深度解析2.1.1核心技术构成2.1.2技术实现原理与流程2.2虚拟化身的应用领域及案例展示2.2.1游戏娱乐领域2.2.2教育培训领域三、场景生成：构建元宇宙的虚拟天地3.1场景生成技术全景透视3.1.1关键技
几张电影票《阿凡达水之道》梅落如雪
夫喜欢视觉和听觉的盛宴，追求极致画面和声音的享受，我却一直不愿意为家里买一个硕大的电视。因为这些年，走在贫农的路线，却始终努力追求高端电视，最终的经验是，买一台好电视--浪费！我说阿凡达出来水之道，他却说如果不去万达的电影院，别的影院去没意思，视觉效果和听觉效果都不好。唉，我摸摸口袋里的三瓜俩枣，心里默默心疼了一下银子。为了几两碎银子，天天上班，我容易嘛。结果这小子追求这个。。。。他说要不不去看了
大学生入门：初识方法及其易踩坑的点
在java学习过程中，我们不难发现有很多重复使用的功能代码块，每次使用如果都要重新写一遍，岂不是很麻烦，就算是“cv”大法，感觉也不是很方便，那么，有什么办法可以解决这个问题呢？方法！java中，一段可重用的，用于执行特定功能的代码块叫做方法，它可以接收参数、返回结果，并且可以被多次使用。一、方法的基本结构[修饰符]返回值类型方法名([参数列表])[throws异常类型]{//方法体}[throw
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
2025最新Mybatis-plus教程（三）
四、MyBatis-Plus条件构造器（一）条件构造器介绍在MyBatis-Plus中提了构造条件的类Wrapper，它可以根据自己的意图定义我们需要的条件。Wrapper是一个抽象类，一般情况下我们用它的子类QueryWrapper来实现自定义条件查询。（二）selectOne方法@TestpublicvoidtestSelectOne(){ QueryWrapperqueryWrapper=n
4D卓越团队-习书C3 林晔0302
第三章4D系统-----神奇坐标的诞生一诞生背景：1物理学背景简化的二乘二矩阵，坐标系；2荣格1905年发表的人的性格发展理论；词汇参考MBTI指标坐标轴X：作出决策是用情感还是逻辑坐标轴Y：获取信息是靠直觉还是感觉。五感：视觉听觉嗅觉味觉触觉占70%二4D系统分析领导力领导者特征四维度：情感与直觉----绿色培养型情感与感觉---黄色包容型逻辑与直觉---蓝色展望型逻辑与感觉--橙色指导型三4D
高铁站违规撑伞识别误检率↓79%：陌讯多模态融合算法实战解析 2501_92722744 算法人工智能目标检测计算机视觉目标跟踪
原创声明本文为原创技术解析，核心技术参数与架构参考自《陌讯技术白皮书》，禁止未经授权的转载与改编。一、行业痛点：密集场景下的违规撑伞识别难题在高铁站、地铁站等交通枢纽，违规撑伞（如非雨天在站台、通道内持伞）可能引发客流拥堵、设备刮擦等安全隐患。然而，传统视觉识别方案面临三大核心挑战：环境干扰大：进出站口光线突变（正午强光/夜间弱光）导致伞面特征提取不稳定，某枢纽站点实测数据显示，阴雨天违规撑伞识别
使用OpenCV对视频进行处理：视频读取、视频显示和视频保存，视频追踪等无规则ai OpenCV opencv 人工智能计算机视觉 python
一.视频的读写1.从文件中读取视频并播放（1）创建读取视频的对象cap=cv2.VideoCapture(filepath)filepath：视频文件的路径（2）视频的属性信息a.获取视频的某些属性retval=cap.get(propId)propId：从0到18的数字，每个数字表示视频的属性常用的属性有属性名对应数值功能描述CAP_PROP_POS_MSEC0视频当前的播放位置，单位为毫秒。C
Mac安装navicat17版本教程mac下载Navicat Premium for Mac v17.1.9【好用】光头才能变强 Mac软件 macos navicat
Mac安装NavicatPremiumforMacv17.1.9【亲测】安装提示“已损坏无法打开，你应该将它移到废纸篓！”肯定还有朋友走完上面流程还是不行安装包获取今天给大家分享下Mac系统安装navicat17.1.9版本，文末下载安装包！亲测好用，旧版本的还保存不了密码，这个版本很稳定！安装直接双击打开下载的安装包左侧应用拖入右侧文件夹提示“已损坏无法打开，你应该将它移到废纸篓！”别慌，接着往
古桥拿什么来拯救你 81d1aa263da清风
一缕清风查看网页版>拿什么拯救你，古桥2011-10-2215:53热衷于旧影觅踪的绿盦先生和远望先生，在松陵南郊意外找到了这座被荒弃许久的古桥“太平桥”。乱藤野蔓遮盖下露出残桥的一截身影，让人心生怜惜。河没了，路没了，村庄没了，桥遗弃了。还有多少可以遗忘？还有多少可以丢弃？视觉在模糊，走过的岁月在流逝，心中的印痕却难抹去，淡忘的记忆在追踪定格的影象中回放。脑波中荡漾，那桥、那水、那人、那事...
Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals 樱花的浪漫因果推断大模型与智能体人工智能算法机器学习语言模型自然语言处理
UncoveringBiasinLargeVision-LanguageModelsatScalewithCounterfactuals-ACLAnthologyhttps://aclanthology.org/2025.naacl-long.305/1.概述最近，大型视觉-语言模型（LVLMs）因其能够将语言模型（LLMs）的对话能力扩展到多模态领域而受到欢迎。具体来说，LVLMs可以根据文本提
视觉Transformer还有哪些点可以研究？怎么应用？计算机视觉工坊 3D视觉从入门到精通学习算法开源
0.这篇文章干了啥？今天笔者为大家推荐一篇最新的综述，详细总结了Transformer的网络架构、优化策略、发展方向，还会定期更新Github，研究注意力机制的小伙伴一定不要错过。注意机制有助于人类视觉系统有效地分析和理解复杂场景，它能够聚焦于图像的关键区域，同时忽略无关紧要的部分。受此概念启发，注意机制已经被引入到计算机视觉（CV）中，以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于
try-finally 乐百事52淑熙
今天写一下有关Try-Finally的相关问题吧。如果代码块中有try，catch，finally，哪个会执行？首先：我们知道，如果在try{}中有异常，catch{}中的代码会执行。finally{}中的代码不管如何都会执行。如果try{}中有return，finally{}是否会执行？看一下下面这个代码：publicclassTry_Finallly{publicstaticvoidmain(
Halcon试用与许可指南：2022年7月版我就是夏迎春
本文还有配套的精品资源，点击获取简介：本文件提供了Halcon软件的试用证书和许可证相关资料的集合，为潜在用户提供免费体验Halcon各项功能的途径，包括图像处理、形状匹配、OCR和条形码读取等。用户可以通过试用版全面了解软件功能，评估是否符合项目需求，并指导如何正确管理和优化许可证使用，以符合预算和需求。1.Halcon软件概述在当今高度自动化的工业时代，机器视觉系统发挥着至关重要的作用。Hal
30周年，不忘初心，砥砺前行 nwcrazysword
2018年12月22日，冬至。时隔六年，全公司员工再次聚在一起，举行30周年庆典。出席大佬中有不少曾经的老前辈，如今也是各大互联网公司领军人物，当晚同坐一堂，心里也是蛮激动的。整晚，虽与大奖无缘，可也算是坐在演唱会一般的舞台前，感受视觉盛宴。
2020-03-16 寻一束光
什么时候开学呢？我还是有些期待，希望孩子们早些进入正常的学习状态。虽然每天听课作业时间安排的比较紧凑，可时间一长，孩子的眼睛撑不住了。视觉疲劳，如果缓解呢？还有小的，虽然每天也能正常上课。作业，看书，可明显没有规律，更多的时间还是想着多看几眼电视，我自己呢，感觉也有些休息的疲惫了，上课做饭，不规律的饮食，一下子让自己失控了。心理和身体，都在失控中。我害怕这样下去，自己变得越发不想出去。看来，什么事
Java 中的多态，一次讲个够之继承关系中的多态编程小世界
多态的前提是必须有子父类关系或者类实现接口关系，否则无法完成多态。在使用多态后的父类引用变量调用方法时，会调用子类重写后的方法。文字再怎么讲，都不够生动，直接用代码来体现老爸要喝酒，那今天喝什么酒呢，publicclassWine{publicvoiddrinkWine(){System.out.println("===今天我要喝什么酒呢====");Wine();}publicvoidWine(
OpenCV读取视频帧卡死的BUG修复 henysugar opencv 音视频 bug
OpenCV读取指定视频文件如果异常的时候，会卡死一直不退出，问题是卡在CvCapture_MSMF::grabVideoFrame函数内，跟了一下，发现有个判断有点问题，其下面的源码：while(!stopFlag) { for(;;) { CV_TRACE_REGION("ReadSample"); if(!SUCCEEDED(hr=videoFileSour
Python_day54Inception网络及其思考且慢.589 Python_60 python 开发语言
一、inception网络介绍今天我们介绍inception，也就是GoogleNet传统计算机视觉的发展史从上面的链接，可以看到其实inceptionnet是在resnet之前的，那为什么我今天才说呢？因为他要引出我们后面的特征融合和特征并行处理这些思想。Inception网络，也被称为GoogLeNet，是Google团队在2014年提出的经典卷积神经网络架构。它的核心设计理念是“并行的多尺度
AI 绘画 + 编程：10 分钟生成个性化艺术作品大力出奇迹985 人工智能
本文围绕Python+OpenCV实现自动人脸识别门禁系统展开，先概述系统的基本构成与作用，再从系统核心技术、开发实现步骤、功能扩展方向、实际应用场景及优化改进策略五个方面详细阐述，最后总结系统的价值与发展前景，为相关开发和应用提供全面参考。一、系统核心技术解析人脸识别技术是门禁系统的核心，其关键在于对人脸特征的精准提取与匹配。OpenCV作为开源计算机视觉库，提供了丰富的人脸检测算法，如Haar
解决：FFmpeg推流时报错：Broken Pipe -米兰的小铁匠 ffmpeg python
最初利用如下代码进行FFmpeg推流：importsubprocessimportcv2importnumpyasnpimporttimeclassRTMPStreamer:def__init__(self,rtmp_url,width,height,fps=30):self.rtmp_url=rtmp_urlself.width=widthself.height=heightself.fps=f
Java异常处理实验半濠春水 Java java 开发语言
（一）上机并运行下面程序，看看会出现什么问题？packagecase1;classExample1{staticvoidmethod(){inta=0;intb=10/a;}publicstaticvoidmain(String[]args){method();}}分析程序出错的原因？Method函数方法中a的值为零，作为除数时发生异常修改程序使之能够正常运行。packagecase1;class
AE音乐可视化模板：制作快速音乐视频
本文还有配套的精品资源，点击获取简介：AE音乐可视化模板旨在将音乐数据转化为视觉效果，包含预设动画和布局设计，使用户能够轻松制作节奏同步的音乐视频。关键编辑区包括音乐编辑、歌名、歌手、背景图片和专辑图片编辑区，以及用于总成预览的区域。这类模板通常适用于新手用户，通过简洁的编辑流程，用户可以利用丰富的视觉元素和动画效果快速创作。包含的项目文件、预设动画、图像和音频素材，以及使用指南，帮助用户顺利完成
【AI大模型：前沿】43、Mamba架构深度解析：为什么它是Transformer最强挑战者？无心水架构 transformer Mamba Mamba架构 AI大模型系统开发实战 AI大模型高手开发 AI大模型系统实战
Transformer架构自2017年诞生以来，一直是NLP、计算机视觉等领域的“统治级”模型架构。但随着序列长度需求的增长（如128K长文本处理、基因组学超长序列分析），其自注意力机制的O(n2)O(n^2)O(n2)计算复杂度成为难以逾越的瓶颈。2023年底，由AlbertGu和TriDao等人提出的Mamba架构，通过创新的“选择性状态空间模型（SelectiveSSM）”实现了线性复杂度（
RK3568平台（camera篇）opencv处理图像嵌入式_笔记瑞芯微 opencv 人工智能计算机视觉
一.颜色转换cv2.cvtColor()函数功能：将一幅图像从一个色彩空间转换到另一个色彩空间。函数原型：cv2.cvtColor(src,code,dst=None,dstCn=None)参数定义：src:要转换的源文件code，转换的色彩空间，在opencv中有超过150种颜色空间转换方法,但是经常用的只有BGR-灰度图和BGR-HSVBGR和灰度图的转换使用cv2.COLOR_BGR2GRA
K8S 1.22.1集群快速搭建 sxxs001 #K8S docker k8s
硬件环境准备腾讯云购买CVM3台【集群最小规模】https://buy.cloud.tencent.com/cvm?tab=custom&step=1&devPayMode=monthly®ionId=33CVM1：竞价实例、南京、南京一区、标准型S5\2C4G\0.09元/小时；带宽0.80元/GBCVM2、3；除带宽外，其他一致操作系统CentOSx648.2镜像新建安全组「打开所有端口
RK3568笔记九十二：QT使用Opencv显示摄像头殷忆枫 RK3568学习笔记笔记
若该文为原创文章，转载请注明原文出处。测试使用QT调用Opencv的API显示摄像头，板子为正点原子的RK3568，最终想实现的是在RK3568平台上使用Qt框架进行部署，利用NPU推理加速视频目标识别。此篇为测试功能代码为正点原子提供的代码，直接用来测试，在未看代码时一直不明白怎么添加opencv的库，后面明白了，只增加了下面的两行：CONFIG+=link_pkgconfigPKGCONFIG
YOLOv4 介绍及其模型优化方法
1、YOLOv4介绍2020年4月，YOLOv4在悄无声息中重磅发布，在目标检测领域引起广泛的讨论。在YOLO系列的原作者JosephRedmon宣布退出CV领域后，表明官方不再更新YOLOv3。但在过去的两年中，AlexeyAB继承了YOLO系列的思想和理念，在YOLOv3的基础上不断进行改进和开发，于今年4月发布YOLOv4，并得到了原作者JosephRedmon的承认。YOLOv4可以使用传
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

【AI视野·今日CV 计算机视觉论文速览 第288期】Thu, 11 Jan 2024

Daily Computer Vision Papers

你可能感兴趣的:(视觉,Papers,计算机视觉,计算机视觉,CV)

【AI视野·今日CV 计算机视觉论文速览第288期】Thu, 11 Jan 2024