hitrjj

【AI视野·今日CV 计算机视觉论文速览第290期】Mon, 15 Jan 2024

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 15 Jan 2024
Totally 66 papers
上期速览✈更多精彩请移步主页

Daily Computer Vision Papers

Seeing the roads through the trees: A benchmark for modeling spatial dependencies with aerial imagery
Authors Caleb Robinson, Isaac Corley, Anthony Ortiz, Rahul Dodhia, Juan M. Lavista Ferres, Peyman Najafirad
充分理解复杂的高分辨率卫星或航空图像场景通常需要在广泛的相关背景下进行空间推理。人体对象识别系统能够在长距离相关上下文中理解场景中的对象。例如，如果一个人观察到一个显示道路部分被树冠破坏的空中场景，那么他们不太可能得出结论，该道路实际上已被树木破坏成不相交的碎片，而是认为附近树木的树冠正在堵塞道路。然而，为了理解现代机器学习模型的长期上下文理解而进行的研究有限。在这项工作中，我们提出了道路分割基准数据集 Chesapeake Roads Spatial Context RSC，用于评估地理空间机器学习模型的空间远程上下文理解，并展示常用的语义分割模型如何无法完成此任务。例如，我们表明，经过训练以从航空图像背景中分割道路的 U Net 在畅通无阻的道路上实现了 84 次召回，但在被树冠覆盖的道路上仅获得 63.5 的召回，尽管经过训练以相同的方式建模。我们进一步分析了模型的性能如何随着我们案例中畅通无阻道路决策的相关上下文距离的变化而变化。

Synthetic Data Generation Framework, Dataset, and Efficient Deep Model for Pedestrian Intention Prediction
Authors Muhammad Naveed Riaz, Maciej Wielgosz, Abel Garcia Romera, Antonio M. Lopez
行人意图预测对于自动驾驶至关重要。特别是，了解行人是否要在自我车辆前面过马路是执行安全和舒适操作的核心。创建准确且快速的模型来根据连续图像预测此类意图具有挑战性。造成这种情况的一个因素是缺乏具有不同交叉和非交叉 C NC 场景的数据集。我们通过引入一个名为 ARCANE 的框架来解决这一稀缺问题，该框架允许以编程方式生成由 C NC 视频剪辑样本组成的合成数据集。例如，我们使用 ARCANE 生成一个名为 PedSynth 的大型且多样化的数据集。我们将展示 PedSynth 如何补充广泛使用的现实世界数据集（例如 JAAD 和 PIE），从而为 C NC 预测提供更准确的模型。考虑到 C NC 预测模型的机载部署，我们还提出了一种名为 PedGNN 的深度模型，该模型速度快且内存占用非常低。

Scalable 3D Panoptic Segmentation With Superpoint Graph Clustering
Authors Damien Robert, Hugo Raguet, Loic Landrieu
我们通过将该任务重新定义为可扩展的图聚类问题，引入了一种用于大型 3D 点云全景分割的高效方法。这种方法可以仅使用本地辅助任务进行训练，从而消除训练期间的资源密集型实例匹配步骤。此外，我们的公式可以很容易地适应超点范式，进一步提高其效率。这使得我们的模型能够在一次推理中处理具有数百万个点和数千个对象的场景。我们的方法称为 SuperCluster，为两个室内扫描数据集（S3DIS Area 5 的 50.1 PQ 7.8 和 ScanNetV2 的 58.7 PQ 25.2）实现了最先进的全景分割性能。我们还为两个大型移动测绘基准 KITTI 360 和 DALES 设置了首个最先进的技术。我们的模型仅包含 209 k 个参数，比最佳竞争方法小 30 倍以上，训练速度提高了 15 倍。

Decoupling Pixel Flipping and Occlusion Strategy for Consistent XAI Benchmarks
Authors Stefan Bl cher, Johanna Vielhaben, Nils Strodthoff
特征去除是 eXplainable AI XAI 的核心构建块，既用于基于遮挡的解释 Shapley 值，也用于评估像素翻转 PF 。然而，遮挡策略可能存在很大差异，从简单的均值替换到使用最先进的扩散模型进行修复。这种模糊性限制了基于遮挡的方法的实用性。例如，PF 基准会导致相互矛盾的排名。竞争性 PF 措施会放大这一点。功能要么从影响最大的第一个 MIF 开始删除，要么从影响最小的第一个 LIF 开始删除。本研究提出了两种互补的观点来解决这一分歧问题。首先，我们解决了对基于遮挡的 XAI 的常见批评，即人工样本导致模型评估不可靠。我们建议通过模型范围外参考 OMS 评分来衡量可靠性。 R OMS 分数可以对遮挡策略进行系统比较，并通过对一致的 PF 排名进行分组来解决分歧问题。其次，我们表明 MIF 和 LIF 的洞察力反过来依赖于 R OMS 分数。为了利用这一点，我们将 MIF 和 LIF 度量结合到对称相关增益 SRG 度量中。这打破了与底层遮挡策略的固有联系，并导致排名一致。

Adversarial Examples are Misaligned in Diffusion Model Manifolds
Authors Peter Lorenz, Ricard Durall, Jansi Keuper
近年来，扩散模型 DM 因其在逼近数据分布、产生最先进的生成结果方面的成功而引起了极大的关注。然而，这些模型的多功能性超出了它们的生成能力，涵盖了各种视觉应用，例如图像修复、分割、对抗鲁棒性等。这项研究致力于通过扩散模型的视角来研究对抗性攻击。然而，我们的目标并不涉及增强图像分类器的对抗鲁棒性。相反，我们的重点在于利用扩散模型来检测和分析这些图像攻击所引入的异常。为此，我们系统地检查了对抗性示例在使用扩散模型进行转换过程时的分布对齐情况。该方法的有效性在 CIFAR 10 和 ImageNet 数据集上进行了评估，包括后者中不同的图像尺寸。

Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking
Authors Wei Cao, Chang Luo, Biao Zhang, Matthias Nie ner, Jiapeng Tang
我们引入了 Motion2VecSets，这是一种用于从点云序列进行动态表面重建的 4D 扩散模型。虽然现有的最先进方法已经证明使用神经场表示重建非刚性物体是成功的，但传统的前馈网络遇到了来自噪声、部分或稀疏点云的模糊观察的挑战。为了解决这些挑战，我们引入了一种扩散模型，该模型通过压缩潜在表示的迭代去噪过程显式地学习非刚性对象的形状和运动分布。在处理模糊输入时，基于扩散的先验可以实现更合理和概率性的重建。我们使用潜在向量集来参数化 4D 动力学，而不是使用全局潜在变量。这种新颖的 4D 表示使我们能够学习局部表面形状和变形模式，从而实现更准确的非线性运动捕捉，并显着提高对看不见的运动和身份的概括性。为了更加时间连贯的对象跟踪，我们同步对变形潜在集进行去噪并跨多个帧交换信息。为了避免计算开销，我们设计了一个交错的空间和时间注意块，以沿着空间和时间域交替聚合潜在变形。与最先进方法的广泛比较证明了我们的 Motion2VecSets 在根据各种不完美观察进行 4D 重建方面的优越性，特别是与 CaDex 相比，在从 DeformingThings4D Animals 数据集上的稀疏点云重建看不见的个体时，联合 IoU 的交集提高了 19 倍。

360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model
Authors Qian Wang, Weiqi Li, Chong Mou, Xinhua Cheng, Jian Zhang
360 度全景视频最近吸引了更多研究和应用的兴趣，这得益于它们所带来的高度沉浸式体验。由于捕获360度全景视频的成本昂贵，迫切需要根据给定的提示生成理想的全景视频。最近，新兴的文本到视频 T2V 扩散方法在标准视频生成中表现出显着的有效性。然而，由于全景视频和标准视频在内容和运动模式方面存在显着差距，这些方法在生成令人满意的 360 度全景视频方面遇到了挑战。在本文中，我们提出了一种名为 360 度视频扩散模型 360DVD 的可控全景视频生成管道，用于根据给定的提示和运动条件生成全景视频。具体来说，我们引入了一个名为 360 Adapter 的轻量级模块，并辅助 360 增强技术来转换预先训练的 T2V 模型以生成 360 度视频。我们进一步提出了一个名为 WEB360 的新全景数据集，由 360 度视频文本对组成，用于训练 360DVD，解决了缺乏带字幕的全景视频数据集的问题。大量的实验证明了 360DVD 在全景视频生成方面的优越性和有效性。

Resource-Efficient Gesture Recognition using Low-Resolution Thermal Camera via Spiking Neural Networks and Sparse Segmentation
Authors Ali Safa, Wout Mommen, Lars Keuninckx
这项工作提出了一种新的手势识别方法，使用廉价、低分辨率的 24 x 32 热传感器，由尖峰神经网络 SNN 处理，然后通过鲁棒主成分分析 R PCA 进行稀疏分割和基于特征的手势分类。与使用标准 RGB 相机相比，所提出的系统对照明变化不敏感，同时与文献中先前使用的高频雷达、飞行时间相机和高分辨率热传感器相比，成本显着降低。至关重要的是，本文表明，与深度学习方法相比，创新地使用最近提出的单稳态多谐振荡器 MMV 神经网络作为一类新型 SNN，可实现比深度学习方法小一个数量级以上的内存和计算复杂性，同时达到最高的手势识别精度93.9 使用在汽车环境中的车厢内采集的 5 级热像仪数据集。

Multimodal Learning for detecting urban functional zones using remote sensing image and multi-semantic information
Authors Chuanji Shi, Yingying Zhang, Jiaotuan Wang, Qiqi Zhu
城市兴趣区 AOI 是指具有明确边界的综合城市功能区。城市商业的快速发展对 AOI 的定义提出了更加精确的要求。然而，现有研究主要集中于城市规划或区域经济分析的广泛AOI挖掘，未能满足移动互联网线上线下业务的精准需求。这些业务需要精确到特定的社区、学校或医院。在本文中，我们提出了一种使用遥感图像和多语义参考信息检测 AOI 栅栏多边形的端到端多模态深度学习算法。然后，我们通过包含动态人员流动和物流地址信息的级联模块评估其及时性。具体来说，我们首先选择特定类别的兴趣点POI，并用它来调用相应的遥感图像、附近的POI、道路节点、人员流动性和物流地址，构建基于Transformer编码器解码器架构的多模态检测模型，标题为 AOITR。该模型中，除了遥感图像外，还嵌入并重组了包括核心POI和道路节点在内的多语义信息，作为Transformer解码器生成AOI多边形的查询内容部分。同时，通过级联前馈网络，利用人员流动性、附近 POI 和物流地址的相对动态分布特征来进行 AOI 可靠性评估。

Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning
Authors Chenyang Wang, Junjun Jiang, Xingyu Hu, Xianming Liu, Xiangyang Ji
深度学习系统在从一系列任务中学习时很容易出现灾难性遗忘，而在从新任务中学习时，无法获得来自经验丰富的任务的旧数据。为了缓解这个问题，一系列方法建议在学习新任务时重放经验任务的数据。这些方法通常采用额外的存储器来存储回放数据。然而，考虑到内存限制或数据隐私问题，在实践中并不期望这样做。作为替代方案，通过反转分类模型中的样本，提出了无数据数据重放方法。尽管取得了良好的效果，但这些方法仍然存在反演数据与真实训练数据不一致的问题，这一点在最近的工作中在反演阶段被忽略了。为此，我们建议通过一些简化和假设来定量测量数据一致性。利用测量结果，我们分析了现有的样本反演技术，并获得了一些富有洞察力的信息，这些信息激发了一种新的损失函数来减少不一致性。具体来说，该损失在绑定多元高斯假设下最小化了倒置数据和真实数据分布的 KL 散度，这在持续学习中很容易实现。此外，我们观察到，随着学习的进展，旧班级权重的标准不断下降。因此，我们分析了根本原因，并提出了一个简单的正则化项来平衡类别权重，以使旧类别的样本更具可区分性。总之，我们提出了针对类增量学习 CCIL 的带有去偏分类器的一致性增强数据重放。

Robustness-Aware 3D Object Detection in Autonomous Driving: A Review and Outlook
Authors Ziying Song, Lin Liu, Feiyang Jia, Yadan Luo, Guoxin Zhang, Lei Yang, Li Wang, Caiyan Jia
在现代自动驾驶领域，感知系统对于准确评估周围环境的状态，从而实现明智的预测和规划是不可或缺的。该系统的关键是 3D 物体检测方法，利用车载传感器（例如 LiDAR 和摄像头）来识别附近物体的大小、类别和位置。尽管旨在提高检测精度和效率的 3D 物体检测方法激增，但系统地检查其对环境变化、噪声和天气变化的适应能力的文献中仍存在空白。这项研究强调了在实际场景下评估感知系统时鲁棒性以及准确性和延迟的重要性。我们的工作对基于相机、基于 LiDAR 和多模态 3D 对象检测算法进行了广泛的调查，彻底评估了它们在准确性、延迟和鲁棒性之间的权衡，特别是在 KITTI C 和 nuScenes C 等数据集上，以确保公平比较。其中，多模态 3D 检测方法表现出卓越的鲁棒性，并引入了一种新颖的分类法来重新组织其文献以提高清晰度。

PCB-Vision: A Multiscene RGB-Hyperspectral Benchmark Dataset of Printed Circuit Boards
Authors Elias Arbash, Margret Fuchs, Behnood Rasti, Sandra Lorenz, Pedram Ghamisi, Richard Gloaguen
针对回收电子废物的关键主题，该贡献致力于开发先进的自动化数据处理管道，作为决策和过程控制的基础。与循环经济和联合国可持续发展目标 SDG 的更广泛目标相一致，我们的工作利用 RGB 和高光谱成像数据的非侵入性分析方法，提供电子废物流成分的定量和定性见解，以优化回收效率。在本文中，我们介绍了 PCB Vision，这是一个开创性的 RGB 高光谱印刷电路板 PCB 基准数据集，其中包含 53 个高空间分辨率的 RGB 图像及其相应的可见光和近红外 VNIR 范围内的高光谱分辨率高光谱数据立方体。我们的数据集以开放科学原则为基础，通过高质量的基本事实为研究人员提供了全面的资源，重点关注三种主要 PCB 元件集成电路、电容器和连接器。我们对所提出的数据集以及几种最先进的 SOTA 模型的性能进行了广泛的统计调查，包括 U Net、Attention U Net、Residual U Net、LinkNet 和 DeepLabv3。通过公开共享这个多场景基准数据集以及基线代码，我们希望促进各个科学界（包括但不限于计算机视觉和遥感）先进数据处理的透明、可追溯和可比较的发展。

Exploring Diverse Representations for Open Set Recognition
Authors Yu Wang, Junxian Mu, Pengfei Zhu, Qinghua Hu
开放集识别 OSR 要求模型对属于封闭集的样本进行分类，同时在测试过程中拒绝未知样本。目前，生成模型在 OSR 中通常比判别模型表现更好，但最近的研究表明，生成模型在复杂任务上可能在计算上不可行或不稳定。在本文中，我们提供了对 OSR 的见解，并发现学习补充表示理论上可以降低开放空间风险。基于分析，我们提出了一种新模型，即多专家多样化注意力融合 MEDAF，它以判别性的方式学习不同的表示。 MEDAF 由多个专家组成，这些专家通过注意力多样性正则化项进行学习，以确保注意力图相互不同。每个专家学习到的逻辑被自适应地融合并用于通过评分函数来识别未知数。我们表明，注意力图的差异可以导致不同的表示，以便融合的表示可以很好地处理开放空间。在标准和 OSR 大规模基准上进行了大量的实验。结果表明，所提出的判别方法在 AUROC 上的性能比现有的生成模型高出 9.5，并且以很少的计算成本实现了新的最先进的性能。我们的方法还可以无缝集成现有的分类模型。

Frequency Masking for Universal Deepfake Detection
Authors Chandler Timm Doloriel, Ngai Man Cheung
我们研究通用深度伪造检测。我们的目标是从一系列生成人工智能方法中检测合成图像，特别是在深度伪造检测器训练期间看不见的新兴图像。通用的深度换脸检测需要出色的泛化能力。受最近提出的蒙版图像建模的启发，该模型在自监督预训练中表现出了出色的泛化能力，我们首次尝试探索用于通用深度伪造检测的蒙版图像建模。我们研究训练深度伪造探测器时的空间和频域掩蔽。基于实证分析，我们提出了一种通过频率掩蔽的新型深度伪造检测器。我们对频域的关注与大多数人不同，大多数人主要针对空间域检测。我们的比较分析表明，与现有方法相比，性能有了显着提升。

Improving the Detection of Small Oriented Objects in Aerial Images
Authors Chandler Timm C. Doloriel, Rhandley D. Cajote
在大规模航空图像中代表微小像素区域的小方向物体由于其尺寸和方向而难以检测。现有的定向空中探测器已显示出有希望的结果，但主要集中于方向建模，而较少考虑物体的大小。在这项工作中，我们提出了一种通过增强定向物体检测模型的分类和回归任务来准确检测航拍图像中的小定向物体的方法。我们设计的注意力点网络由两种损失组成：Guided Attention Loss GALoss 和 Box Points Loss BPLoss 。 GALoss 使用实例分割掩码作为基本事实来学习改进小物体检测所需的注意特征。然后，使用这些注意特征来预测 BPLoss 的框点，从而确定相对于面向目标的边界框的点位置。实验结果表明，我们的注意力点网络在具有小对象实例 DOTA v1.5 的面向标准的航空数据集和海事相关数据集 HRSC2016 上的有效性。

Self-supervised Learning of Dense Hierarchical Representations for Medical Image Segmentation
Authors Eytan Kats, Jochen G. Hirsch, Mattias P. Heinrich
本文演示了一种自监督框架，用于学习针对密集下游任务定制的体素粗略到精细表示。我们的方法源于这样的观察：由于固有的架构偏差，现有的分层表示学习方法倾向于优先考虑全局特征而不是局部特征。为了应对这一挑战，我们设计了一种训练策略，平衡多个尺度特征的贡献，确保学习到的表示捕获粗粒度和细粒度的细节。我们的策略包含 3 倍改进：1 本地数据增强，2 分层平衡架构，3 混合对比恢复损失函数。

AttributionScanner: A Visual Analytics System for Metadata-Free Data-Slicing Based Model Validation
Authors Xiwei Xuan, Jorge Piazentin Ono, Liang Gou, Kwan Liu Ma, Liu Ren
数据切片查找是一种用于评估机器学习模型的新兴技术。它的工作原理是识别指定数据集中性能较差的子组，这些子组通常由不同的特征集或元信息定义。然而，在非结构化图像数据的背景下，数据切片查找提出了两个显着的挑战：它需要额外的元数据，这是一项费力且昂贵的要求，并且还需要付出巨大的努力来解释数据切片内性能不佳的根本原因。为了应对这些挑战，我们推出了 AttributionScanner，这是一种创新的人在环视觉分析 VA 系统，专为基于数据切片的机器学习 ML 模型验证而设计。我们的方法擅长识别可解释的数据切片，采用通过可解释 AI XAI 技术提取的可解释特征，并消除文本注释或跨模型嵌入的额外元数据的必要性。 AttributionScanner 能够熟练地查明关键模型问题，包括虚假相关性和错误标记的数据。我们新颖的 VA 界面直观地总结了数据切片，使用户能够轻松收集对模型行为模式的见解。此外，我们的框架通过授权领域专家使用尖端的神经网络正则化技术来解决模型问题，从而结束了机器学习开发周期。通过两个原型用例强调了 AttributionScanner 的功效，阐明了其在以视觉为中心的任务的模型验证中的实质性有效性。

RotationDrag: Point-based Image Editing with Rotated Diffusion Features
Authors Minxing Luo, Wentao Cheng, Jian Yang
在保持图像保真度的同时对图像内容进行精确且用户友好的操作一直是图像编辑领域的关键。得益于生成模型的强大功能，最近的基于点的图像编辑方法允许用户通过单击多个控制点以交互方式更改具有高通用性的图像内容。但上述编辑过程通常基于这样的假设：特征在从初始点到目标点的运动监督步骤中保持不变。在这项工作中，我们对扩散模型的特征空间进行了全面的研究，发现特征在平面旋转下发生剧烈变化。基于此，我们提出了一种名为 RotationDrag 的新颖方法，当用户打算平面旋转图像内容时，它可以显着提高基于点的图像编辑性能。我们的方法利用旋转图像的特征图更精确地跟踪手柄点，从而确保精确的优化和高图像保真度。此外，我们建立了一个名为 RotateBench 的平面旋转基准，这是第一个评估平面旋转场景下基于点的图像编辑方法在真实图像和生成图像上的性能的基准。彻底的用户研究通过比较 DragDiffusion 基线和其他现有的基于扩散的方法，证明了实现用户想要实现的平面旋转的卓越能力。

Improving Low-Light Image Recognition Performance Based on Image-adaptive Learnable Module
Authors Seitaro Ono, Yuka Ogino, Takahiro Toizumi, Atsushi Ito, Masato Tsukada
近年来，基于深度神经网络的图像识别技术取得了重大进展。然而，提高弱光条件下的识别性能仍然是一个重大挑战。这项研究致力于增强弱光条件下的识别模型性能。我们提出了一种图像自适应可学习模块，该模块对输入图像应用适当的图像处理，并使用超参数预测器来预测模块中使用的最佳参数。我们提出的方法可以通过轻松集成为前端滤波器来增强低光条件下的识别性能，而无需重新训练专为低光条件设计的现有识别模型。

Mutual Distillation Learning For Person Re-Identification
Authors Huiyuan Fu, Kuilong Cui, Chuanming Wang, Mengshi Qi, Huadong Ma
随着深度学习技术的快速进步，行人再识别ReID的性能得到了显着的提升。然而，大多数先前的工作传统上都专注于通过仅从单一角度提取特征来解决问题，例如统一划分、硬注意力机制或语义掩码。虽然这些方法在特定情况下已证明有效，但在不同情况下却存在不足。在本文中，我们提出了一种新颖的方法，即用于行人再识别的相互蒸馏学习，称为 MDPR，它在单个统一模型中从多个角度解决了具有挑战性的问题，利用相互蒸馏的力量来共同增强特征表示。具体来说，我们的方法包含两个分支：硬内容分支通过统一的水平分区策略提取局部特征，软内容分支动态区分前景和背景，并通过精心设计的注意力机制促进多粒度特征的提取。为了促进这两个分支之间的知识交换，采用相互蒸馏和融合的过程，提高每个分支的输出能力。在广泛使用的人员 ReID 数据集上进行了大量的实验，以验证我们方法的有效性和优越性。值得注意的是，我们的方法在 DukeMTMC reID 数据集上的 mAP Rank 1 中取得了令人印象深刻的 88.7 94.4，超过了当前最先进的结果。

UPDP: A Unified Progressive Depth Pruner for CNN and Vision Transformer
Authors Ji Liu, Dehua Tang, Yuanxian Huang, Li Zhang, Xiaocheng Zeng, Dong Li, Mingjie Lu, Jinzhang Peng, Yu Wang, Fan Jiang, Lu Tian, Ashish Sirasao
传统的通道明智修剪方法通过减少网络通道来有效地修剪具有深度明智卷积层和某些高效模块（例如流行的反向残差块）的高效 CNN 模型。由于一些归一化层的存在，先前通过减少网络深度的深度剪枝方法不适合剪枝一些高效模型。此外，通过直接删除激活层来微调子网会破坏原始模型权重，阻碍剪枝后的模型实现高性能。为了解决这些问题，我们提出了一种新的有效模型深度修剪方法。我们的方法提出了一种新颖的子网块修剪策略和渐进式训练方法。此外，我们将修剪方法扩展到视觉变换器模型。实验结果表明，我们的方法在各种修剪配置中始终优于现有的深度修剪方法。我们将我们的方法应用在 ConvNeXtV1 上，获得了三个剪枝的 ConvNeXtV1 模型，它们超越了具有可比推理性能的大多数 SOTA 高效模型。

3D Reconstruction of Interacting Multi-Person in Clothing from a Single Image
Authors Junuk Cha, Hansol Lee, Jaewon Kim, Nhat Nguyen Bao Truong, Jae Shin Yoon, Seungryul Baek
本文介绍了一种新颖的管道，可以根据单个图像在全局连贯的场景空间上重建穿着服装的多人交互的几何形状。主要的挑战来自于遮挡，由于他人或自身的遮挡，人体的一部分从单一视图中不可见，这导致了几何形状的缺失和物理上的不可信性，例如穿透。我们利用两个人类先验知识来实现完整的 3D 几何和表面接触，从而克服了这一挑战。对于几何先验，编码器学习将缺失身体部位的人的图像回归为潜在向量，解码器对这些向量进行解码以生成相关几何形状的 3D 特征，隐式网络将这些特征与表面法线贴图结合起来以进行重建完整且详细的 3D 人体。对于接触先验，我们开发了一个图像空间接触检测器，它输出 3D 中人与人之间表面接触的概率分布。我们使用这些先验来全局细化身体姿势，从而实现场景空间中穿着服装的交互式多人的无渗透和准确重建。

UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding
Authors Bowen Shi, Peisen Zhao, Zichen Wang, Yuhang Zhang, Yaoming Wang, Jin Li, Wenrui Dai, Junni Zou, Hongkai Xiong, Qi Tian, Xiaopeng Zhang
以对比语言图像预训练 CLIP 为代表的视觉语言基础模型由于联合理解视觉和文本任务而受到越来越多的关注。然而，现有的方法主要侧重于训练模型以将全局图像表示与文本描述相匹配，从而忽略了局部区域与相应文本标记之间的关键对齐。本文通过多粒度对齐扩展了 CLIP。值得注意的是，我们特意构建了一个新的数据集，其中包含各种粒度级别的伪注释，包括图像级别、区域级别和像素级别标题标签。因此，我们开发了一个统一的多粒度学习框架，名为 UMG CLIP，它同时赋予模型跨不同细节级别的多功能感知能力。 UMG CLIP 配备参数高效调整，超越了当前广泛使用的 CLIP 模型，并在各种图像理解基准上实现了最先进的性能，包括开放世界识别、检索、语义分割和全景分割任务。

ModaVerse: Efficiently Transforming Modalities with LLMs
Authors Xinyu Wang, Bohan Zhuang, Qi Wu
人类拥有理解不同模式并在它们之间无缝传输信息的能力。在这项工作中，我们介绍了 ModaVerse，一种多模态大型语言模型 MLLM，能够跨各种模态（包括图像、视频和音频）理解和转换内容。主要的 MLLM 框架在很大程度上依赖于文本和非文本特征的潜在空间的对齐。这种对齐过程将文本数据训练的语言模型与多模态数据训练的编码器和解码器同步，通常需要在多个阶段对多个投影层进行广泛的训练。受 LLM 作为代理方法的启发，我们提出了一种直接在自然语言级别运行的新颖的输入输出 I O 对齐机制。它将 LLM 的输出与生成模型的输入保持一致，避免了与潜在特征对齐相关的复杂性，并将现有 MLLM 的多个训练阶段简化为单个高效的流程。这种概念上的进步导致数据和计算成本的显着降低。

SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical Refinement and EM optimization
Authors Zhenlong Yuan, Jiakai Cao, Zhaoxin Li, Hao Jiang, Zhaoqi Wang
在本文中，我们介绍了分段驱动变形多视图立体 SD MVS，这是一种可以有效解决无纹理区域 3D 重建挑战的方法。我们是第一个采用分段任意模型 SAM 来区分场景中的语义实例，并进一步利用这些约束在匹配成本和传播上进行像素级补丁变形。同时，我们提出了一种独特的细化策略，结合了球坐标和法线梯度下降以及深度像素搜索间隔，显着提高了重建 3D 模型的完整性。此外，我们采用期望最大化EM算法来交替优化聚合匹配成本和超参数，有效缓解参数过度依赖经验调整的问题。

SamLP: A Customized Segment Anything Model for License Plate Detection
Authors Haoxuan Ding, Junyu Gao, Yuan Yuan, Qi Wang
随着基础模型的出现，这种新颖的深度学习范式催生了自然语言处理和计算机视觉领域的许多强大成就。基础模型具有许多优点，如优异的特征提取能力、强大的泛化能力、强大的少镜头和零镜头学习能力等，有利于视觉任务。作为车辆的唯一标识，不同国家和地区的车牌LP样式和外观各不相同，甚至不同类型的车辆有不同的LP。然而，最近基于深度学习的车牌检测器主要在特定数据集上进行训练，这些有限的数据集限制了车牌检测器的有效性和鲁棒性。为了减轻有限数据的负面影响，本文尝试利用基础模型的优势。我们为车牌检测任务定制了一个视觉基础模型，即 Segment Anything Model SAM ，并提出了第一个基于视觉基础模型的车牌检测器，命名为 SamLP。具体来说，我们设计了一种低秩适应 LoRA 微调策略，将额外的参数注入 SAM 并将 SAM 转移到 LP 检测任务中。然后，我们进一步提出了一个及时的微调步骤，为 SamLP 提供及时的分割能力。实验表明，与其他 LP 检测器相比，我们提出的 SamLP 实现了有希望的检测性能。同时，所提出的 SamLP 具有很强的少镜头和零镜头学习能力，这显示了迁移视觉基础模型的潜力。

Graph Relation Distillation for Efficient Biomedical Instance Segmentation
Authors Xiaoyu Liu, Yueyi Zhang, Zhiwei Xiong, Wei Huang, Bo Hu, Xiaoyan Sun, Feng Wu
深度神经网络预测的实例感知嵌入彻底改变了生物医学实例分割，但其资源需求非常大。知识蒸馏提供了一种解决方案，它将蒸馏知识从繁重的教师网络转移到轻量级但高性能的学生网络。然而，现有的知识蒸馏方法难以提取用于区分实例的知识，并且忽略了全局关系信息。为了解决这些挑战，我们提出了一种用于高效生物医学实例分割的图关系蒸馏方法，该方法考虑了三种基本类型的知识实例级特征、实例关系和像素级边界。我们介绍了在图像内级别和图像间级别部署的两种图蒸馏方案，实例图蒸馏 IGD 和亲和图蒸馏 AGD 。 IGD 构造一个表示实例特征和关系的图，通过强制实例图一致性来传递这两类知识。 AGD构建表示像素关系的亲和图来捕获实例边界的结构化知识，通过确保像素亲和一致性来传递边界相关知识。

Seek for Incantations: Towards Accurate Text-to-Image Diffusion Synthesis through Prompt Engineering
Authors Chang Yu, Junran Peng, Xiangyu Zhu, Zhaoxiang Zhang, Qi Tian, Zhen Lei
通过扩散模型进行文本到图像合成最近在生成高质量图像方面表现出了卓越的性能。尽管对于简单文本表现良好，但当面对包含多个对象或空间关系的复杂文本时，模型可能会感到困惑。为了得到想要的图像，一种可行的方法是手动调整文本描述，即对文本进行叙述或添加一些文字，这比较费力。在本文中，我们提出了一个框架，通过即时学习来学习扩散模型的正确文本描述。通过利用预先训练的扩散模型得出的质量指导和语义指导，我们的方法可以有效地学习提示，以提高输入文本和生成图像之间的匹配度。

Hyper-STTN: Social Group-aware Spatial-Temporal Transformer Network for Human Trajectory Prediction with Hypergraph Reasoning
Authors Weizheng Wang, Le Mao, Baijian Yang, Guohua Chen, Byung Cheol Min
预测拥挤的意图和轨迹对于各种现实世界的应用（包括服务机器人和自动驾驶汽车）至关重要。理解环境动力学具有挑战性，不仅因为建模成对的空间和时间相互作用的复杂性，而且因为群体相互作用的不同影响。为了解码拥挤场景中全面的成对和分组交互，我们引入了 Hyper STTN，这是一种基于超图的空间时间变换网络，用于人群轨迹预测。在 Hyper STTN 中，拥挤的分组相关性是使用一组具有不同组大小的多尺度超图来构建的，这些超图是通过基于随机游走可靠性的超图谱卷积捕获的。此外，时空转换器适用于捕获行人在时空维度上的成对潜在交互。然后，这些异构组和成对通过多模态变压器网络进行融合和对齐。

AffordanceLLM: Grounding Affordance from Vision Language Models
Authors Shengyi Qian, Weifeng Chen, Min Bai, Xiong Zhou, Zhuowen Tu, Li Erran Li
可供性基础是指找到一个对象可以与之交互的区域的任务。这是一项基本但具有挑战性的任务，因为成功的解决方案需要从多个方面全面了解场景，包括物体及其部件的检测、定位和识别、场景的地理空间配置布局、3D 形状和物理、以及物体和人类的功能和潜在交互。许多知识是隐藏的，超出了来自有限训练集的监督标签的图像内容。在本文中，我们尝试利用预训练的大规模视觉语言模型中丰富的世界、抽象和人类对象交互知识来提高当前可供性基础的泛化能力。在 AGD20K 基准下，我们提出的模型在野外对象可供性接地方面表现出比竞争方法显着的性能增益。我们进一步证明，即使在训练期间看不到物体和动作，它也可以从随机互联网图像中获得物体的可供性。

Application Of Vision-Language Models For Assessing Osteoarthritis Disease Severity
Authors Banafshe Felfeliyan, Yuyue Zhou, Shrimanti Ghosh, Jessica Kupper, Shaobo Liu, Abhilash Hareendranathan, Jacob L. Jaremko
骨关节炎 OA 构成了全球健康挑战，需要精确的诊断方法。目前的放射线照相评估非常耗时且容易发生变化，因此需要自动化解决方案。现有的 OA 评估深度学习模型是单模态单任务系统，它们不包含相关的文本信息，例如患者人口统计、疾病史或医生报告。本研究探讨了如何利用视觉语言处理 VLP 模型，利用 X 射线图像和相应报告来预测 OA 严重程度。我们的方法利用膝盖的 X 射线图像和从表格 OA 评分值生成的各种报告模板来训练 CLIP 对比语言图像预训练风格的 VLP 模型。此外，我们还加入了额外的对比标题，以强制模型区分正面和负面报告。

Video Super-Resolution Transformer with Masked Inter&Intra-Frame Attention
Authors Xingyu Zhou, Leheng Zhang, Xiaorui Zhao, Keze Wang, Leida Li, Shuhang Gu
最近，Vision Transformer 在恢复低分辨率序列中丢失的细节（即视频超分辨率 VSR 任务）方面取得了巨大成功。尽管其在 VSR 精度方面具有优势，但繁重的计算负担以及较大的内存占用阻碍了基于 Transformer 的部署

Beyond the Surface: A Global-Scale Analysis of Visual Stereotypes in Text-to-Image Generation
Authors Akshita Jha, Vinodkumar Prabhakaran, Remi Denton, Sarah Laszlo, Shachi Dave, Rida Qadri, Chandan K. Reddy, Sunipa Dev
最近的研究强调了文本到图像 T2I 模型世代中对不同身份群体的人的刻板描述问题。然而，这些现有的方法有几个关键的局限性，包括在评估中明显缺乏对全球身份群体的覆盖，以及其相关刻板印象的范围。此外，他们常常缺乏对固有视觉刻板印象（例如体重过轻或宽边帽）与文化依赖性刻板印象（例如有吸引力或恐怖分子）之间的严格区分。在这项工作中，我们通过多方面的方法解决了这些局限性，该方法利用现有的文本资源，将我们对 T2I 模型生成的图像中的地理文化刻板印象的评估作为基础。我们利用现有的刻板印象基准来识别和评估全球范围内的视觉刻板印象，涵盖 135 个国籍的身份群体。我们证明，与其他属性相比，刻板属性出现在这些身份图像中的可能性是其他属性的三倍。我们进一步调查了不同国籍的生成图像的描述有多么不同的冒犯性。最后，通过详细的案例研究，我们揭示了所有身份群体的默认表示如何具有刻板的外观。此外，对于南半球国家来说，即使有明确提示，不同属性的图像在视觉上也是相似的。

Frequency-Time Diffusion with Neural Cellular Automata
Authors John Kalkhof, Arlene K hn, Yannik Frisch, Anirban Mukhopadhyay
去噪扩散模型 DDM 已成为合成高质量图像的领先生成技术，但通常受到基于 UNet 的架构的限制，从而带来了某些限制。特别是，当硬件资源有限时，通常数亿个参数的相当大的大小使得它们不切实际。然而，即使拥有强大的硬件，处理十亿像素范围的图像也很困难。在显微镜或卫星成像等领域尤其如此，这些挑战源于对预定义生成尺寸的限制以及对更大图像的低效缩放。我们提出了两种基于神经元胞自动机 NCA 的 DDM 方法来解决这些挑战，并启动基于 NCA 的 DDM Diff NCA 和 FourierDiff NCA。 Diff NCA 仅使用底层分布的局部特征来执行扩散，使其适合局部特征至关重要的应用。为了传达图像空间中的全局知识，朴素的 NCA 设置需要随着图像比例而增加的时间步长。我们通过引入 FourierDiff NCA 解决了当前 NCA 架构的这一瓶颈，它通过添加基于傅立叶的扩散过程并将频率组织的傅立叶空间与图像空间相结合来改进 Diff NCA。通过在傅立叶域中启动扩散并在图像空间中完成扩散，FourierDiff NCA 加速了全球通信。我们通过使用 Diff NCA 208k 参数生成 576x576 分辨率的高分辨率数字病理学扫描和 FourierDiff NCA 887k 参数来合成 64x64 的 CelebA 图像来验证我们的技术，其性能优于 VNCA 和基于 UNet 的五倍大的 DDM。

Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition
Authors Yukun Zuo, Hantao Yao, Liansheng Zhuang, Changsheng Xu
视听视频识别 AVVR 旨在整合音频和视觉线索，对视频进行准确分类。虽然现有方法使用提供的数据集训练 AVVR 模型并取得令人满意的结果，但在现实世界中遇到新类别时，它们很难保留历史类别知识。目前还没有专门的方法来解决这个问题，因此本文重点探索类增量视听视频识别 CIAVVR 。对于 CIAVVR 来说，由于存储的数据和过去类别的学习模型都包含历史知识，因此核心挑战是如何捕获过去的数据知识和过去的模型知识以防止灾难性遗忘。我们引入了分层增强和蒸馏 HAD，它包括分层增强模块 HAM 和分层蒸馏模块 HDM，分别有效地利用数据和模型的分层结构。具体来说，HAM 实施了一种新颖的增强策略，即分段特征增强，以保留分层模型知识。同时，HDM引入了新设计的分层视频分布逻辑蒸馏和分层片段视频相关蒸馏来分别捕获和维护每个数据的分层样本内知识和数据之间的分层样本间知识。对 AVE、AVK 100、AVK 200 和 AVK 400 四个基准的评估表明，所提出的 HAD 有效地捕获了数据和模型中的层次信息，从而更好地保存了历史类别知识并提高了性能。

A Study on Self-Supervised Pretraining for Vision Problems in Gastrointestinal Endoscopy
Authors Edward Sanderson, Bogdan J. Matuszewski
胃肠内窥镜视觉任务的解决方案 GIE 通常使用以 ImageNet 1k 作为主干的监督方式预训练的图像编码器。然而，使用现代自监督预训练算法和最新的 10 万张未标记 GIE 图像 Hyperkvasir 未标记数据集可能会带来改进。在这项工作中，我们研究了具有 ResNet50 和 ViT B 主干的模型的微调性能，这些模型以自监督和 ImageNet 1k 和 Hyperkvasir 未标记自监督方式进行预训练，仅在一系列 GIE 视觉任务中进行。除了为每个任务确定最合适的预训练管道和主干架构之外，我们的结果表明，自监督预训练通常会比监督预训练为 GIE 视觉任务产生更合适的主干，而 ImageNet 1k 的自监督预训练通常更适合 GIE 视觉任务。比使用未标记的 Hyperkvasir 进行预训练更合适，除了结肠镜检查中的单眼深度估计之外，ViT Bs 更适合息肉分割和结肠镜检查中的单眼深度估计，ResNet50s 更适合息肉检测，并且两种架构在解剖标志中表现相似识别和病理结果表征。我们希望这项工作能够引起人们对 GIE 视觉任务预训练复杂性的关注，为这一发展提供比常规方法更合适的方法，并激发对该主题的进一步研究，以帮助推动这一发展。

AGSPNet: A framework for parcel-scale crop fine-grained semantic change detection from UAV high-resolution imagery with agricultural geographic scene constraints
Authors Shaochun Li, Yanjun Wang, Hengfan Cai, Lina Deng, Yunhao Lin
实时、准确地获取农作物种植细粒变化信息，对于农作物生长监测、产量预测和农业结构调整具有重要意义。针对现有语义变化检测SCD算法中可见光高分辨率无人机不同相位图像光谱混乱严重、大片复杂背景和椒盐噪声干扰等问题，以有效提取农作物和农作物的深层图像特征。满足农业实际工程应用的需求，设计并提出了农业地理场景和地块尺度约束的农作物SCD框架AGSPNet。 AGSPNet框架包含农业地理场景AGS划分模块、地块边缘提取模块和农作物SCD模块三部分。同时，我们制作并推出了专门用于农业监测的无人机图像SCD数据集CSCD，涵盖复杂地理场景中农作物的多种语义变化类型。我们在该数据集的两个测试区域进行了对比实验和精度评估，结果表明AGSPNet的crop SCD结果在数量和质量上始终优于其他深度学习SCD模型，评估指标为F1得分、kappa、OA 、mIoU 比次优方法平均分别获得 0.038、0.021、0.011 和 0.062 的改进。

YOLO-Former: YOLO Shakes Hand With ViT
Authors Javad Khoramdel, Ahmad Moori, Yasamin Borhani, Armin Ghanbarzadeh, Esmaeil Najafi
所提出的 YOLOFormer 方法无缝地集成了 Transformer 和 YOLOv4 的思想，创建了一个高度准确且高效的目标检测系统。该方法利用了 YOLOv4 的快速推理速度，并通过卷积注意力和 Transformer 模块的集成，结合了 Transformer 架构的优势。结果证明了该方法的有效性，在 Pascal VOC 数据集上的平均精度 mAP 为 85.76，同时保持了每秒 10.85 帧的高预测速度。

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs
Authors Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, Saining Xie
视觉对于语言来说是否足够好多模态模型的最新进展主要源于大型语言模型法学硕士的强大推理能力。然而，视觉组件通常仅依赖于实例级对比语言图像预训练 CLIP 。我们的研究表明，近期多模态法学硕士 MLLM 的视觉能力仍然表现出系统性缺陷。为了理解这些错误的根源，我们探索了 CLIP 的视觉嵌入空间和仅视觉自监督学习之间的差距。我们识别出 CLIP 盲对图像，尽管它们有明显的视觉差异，但 CLIP 认为相似。通过这些对，我们构建了多模式视觉模式 MMVP 基准。 MMVP 揭示了包括 GPT 4V 在内的最先进系统在九种基本视觉模式中难以解决简单问题的领域，通常会提供不正确的答案和幻觉的解释。我们进一步评估了各种基于 CLIP 的视觉和语言模型，发现挑战 CLIP 模型的视觉模式与多模式法学硕士的问题之间存在显着的相关性。作为解决这些问题的初步努力，我们提出了一种混合特征 MoF 方法，证明将视觉自监督学习功能与 MLLM 集成可以显着增强其视觉基础能力。

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications
Authors Yuwen Xiong, Zhiqi Li, Yuntao Chen, Feng Wang, Xizhou Zhu, Jiapeng Luo, Wenhai Wang, Tong Lu, Hongsheng Li, Yu Qiao, Lewei Lu, Jie Zhou, Jifeng Dai
我们推出 Deformable Convolution v4 DCNv4，这是一种专为广泛的视觉应用而设计的高效且有效的算子。 DCNv4 通过两项关键增强解决了其前身 DCNv3 的局限性：1. 消除空间聚合中的 softmax 归一化，以增强其动态属性和表达能力；2. 优化内存访问，最大限度地减少冗余操作以提高速度。与 DCNv3 相比，这些改进使得收敛速度显着加快，处理速度也大幅提高，DCNv4 的转发速度达到了三倍以上。 DCNv4 在各种任务中展示了卓越的性能，包括图像分类、实例和语义分割，尤其是图像生成。当集成到潜在扩散模型中的 U Net 等生成模型中时，DCNv4 的性能优于其基线，强调了其增强生成模型的可能性。实际应用中，在InternImage模型中用DCNv4替换DCNv3创建FlashInternImage，无需进一步修改，速度提升高达80%，性能进一步提升。

TriNeRFLet: A Wavelet Based Multiscale Triplane NeRF Representation
Authors Rajaei Khatib, Raja Giryes
近年来，神经辐射场 NeRF 模型因其恢复复杂 3D 场景的能力而受到欢迎。继其成功之后，许多方法提出了不同的 NeRF 表示，以进一步提高运行时间和性能。 Triplane 就是这样的一个例子，其中 NeRF 使用三个 2D 特征平面来表示。这使得可以在此框架中轻松使用现有的 2D 神经网络，例如生成三个平面。尽管有其优势，但与 NeRF 解决方案相比，三平面表示在 3D 恢复质量方面落后。在这项工作中，我们提出了 TriNeRFLet，一种基于 2D 小波的 NeRF 多尺度三平面表示，它缩小了 3D 恢复性能差距，并且与当前最先进的方法具有竞争力。

Enhancing Multimodal Understanding with CLIP-Based Image-to-Text Transformation
Authors Chang Che, Qunwei Lin, Xinyu Zhao, Jiaxin Huang, Liqiang Yu
将输入图像转换为相应文本解释的过程是计算机视觉和自然语言处理领域中一项至关重要且复杂的工作。

FRED: Towards a Full Rotation-Equivariance in Aerial Image Object Detection
Authors Chanho Lee, Jinsu Son, Hyounguk Shon, Yunho Jeon, Junmo Kim
旋转等变性是定向物体检测中一个重要但具有挑战性的属性。虽然由于传统 CNN 的平移等方差，一般物体检测器自然地利用了对空间移动的鲁棒性，但实现旋转等方差仍然是一个难以实现的目标。当前的检测器部署各种对齐技术来导出旋转不变特征，但仍然依赖于高容量模型和具有所有可能旋转的大量数据增强。在本文中，我们介绍了一种完全旋转等变的面向对象检测器 FRED ，其从图像到边界框预测的整个过程都是严格等变的。具体来说，我们将不变的任务对象分类和等变的任务对象定位解耦，以实现端到端的等变。我们将边界框表示为一组旋转等变向量来实现旋转等变定位。此外，我们利用这些旋转等变向量作为可变形卷积中的偏移量，从而增强了空间适应的现有优势。与现有方法相比，利用完全旋转等方差，我们的 FRED 对图像级旋转表现出更高的鲁棒性。此外，我们通过实验表明 FRED 距离非轴对齐学习又近了一步。

UDEEP: Edge-based Computer Vision for In-Situ Underwater Crayfish and Plastic Detection
Authors Dennis Monari, Jack Larkin, Pedro Machado, Jordan J. Bird, Isibor Kennedy Ihianle, Salisu Wada Yahaya, Farhad Fassihi Tash, Md Mahmudul Hasan, Ahmad Lotfi
入侵信号小龙虾对生态系统产生有害影响。他们传播了真菌型小龙虾瘟疫病 Aphanomyces astaci，这种疾病对英国唯一的本土小龙虾品种白爪小龙虾来说是致命的。入侵信号小龙虾广泛挖洞，造成栖息地破坏、河岸侵蚀和水质不利变化，同时还与本地物种争夺资源，导致本地种群数量下降。此外，污染加剧了白爪小龙虾的脆弱性，英国某些县的白爪小龙虾数量减少了 90 多种，极易灭绝。为了保护水生生态系统，必须解决英国河流生态系统中入侵物种和废弃塑料带来的挑战。 UDEEP 平台可以通过对 Signal 小龙虾和塑料碎片进行动态分类，同时利用人工智能、物联网设备和边缘计算（即 NJN）的功能，在环境监测中发挥至关重要的作用。

A Stochastic Approach to Classification Error Estimates in Convolutional Neural Networks
Authors Jan Peleska, Felix Br ning, Mario Gleirscher, Wen ling Huang
本技术报告介绍了在安全关键应用中用于图像分类的训练有素的卷积神经网络 CNN 验证领域取得的研究成果。作为运行示例，我们使用了未来自动化等级为 GoA 4 的自动货运列车所需的障碍物检测功能。结果表明，像 GoA 4 货运列车这样的系统如今确实可以通过另外使用的新标准（如 ANSI UL 4600 和 ISO 21448）进行认证。符合长期存在的标准 EN 50128 和 EN 50129。此外，我们还对障碍物检测功能预期的系统级危险率进行了定量分析。结果表明，使用传感器感知器融合，融合检测系统可以满足被视为适用 SIL 3 的安全完整性级别可接受的可容忍危险率。对 CNN 模型进行数学分析，从而识别划分 CNN 图像输入空间的分类簇和等价类。这些簇和类用于引入一种新颖的统计测试方法，用于确定经过训练的 CNN 的残差概率和相关的置信上限。

Image Classifier Based Generative Method for Planar Antenna Design
Authors Yang Zhong, Weiping Dou, Andrew Cohen, Dia a Bisharat, Yuandong Tian, Jiang Zhu, Qing Huo Liu
为了将天线设计扩展到印刷电路板 PCB 上以供更多感兴趣的工程师使用，我们提出了一种简单的方法，可以使用一些基本组件对 PCB 天线进行建模。通过采取两个单独的步骤来确定其几何尺寸和位置，无需任何经验即可制作天线原型。与维度质量相关的随机抽样统计数据用于在候选维度中进行选择。引入了一种使用卷积神经网络 CNN 的新颖的基于图像的分类器，以进一步确定这些固定维度组件的位置。选择了可穿戴产品的两个示例来检查整个工作流程。

AAMDM: Accelerated Auto-regressive Motion Diffusion Model
Authors Tianyu Li, Calvin Qiao, Guanqiao Ren, KangKang Yin, Sehoon Ha
交互式运动合成对于在视频游戏和虚拟现实等娱乐应用中创建沉浸式体验至关重要。然而，生成高质量且上下文响应的动画仍然是一个挑战。游戏行业的传统技术可以制作高保真度的动画，但计算成本高且可扩展性差。经过训练的神经网络模型可以缓解内存和速度问题，但在生成不同的运动方面存在不足。扩散模型以低内存使用量提供多种运动合成，但需要昂贵的反向扩散过程。本文介绍了加速自回归运动扩散模型 AAMDM，这是一种新颖的运动合成框架，旨在同时实现质量、多样性和效率。 AAMDM 将去噪扩散 GAN 集成为快速生成模块，将自动回归扩散模型集成为抛光模块。此外，AAMDM 在较低维的嵌入空间而不是全维姿态空间中运行，这降低了训练复杂度并进一步提高了性能。通过全面的定量分析和视觉比较，我们表明 AAMDM 在运动质量、多样性和运行时效率方面优于现有方法。

DFU: scale-robust diffusion model for zero-shot super-resolution image generation
Authors Alex Havrilla, Kevin Rojas, Wenjing Liao, Molei Tao
扩散生成模型在生成具有固定分辨率的图像方面取得了显着的成功。然而，当无法获得这些分辨率的训练数据时，现有模型推广到不同分辨率的能力有限。利用算子学习技术，我们提出了一种新颖的深度学习架构，即 Dual FNO UNet DFU，它通过组合多种分辨率的空间和光谱信息来近似得分算子。 DFU 与基线的比较证明了其可扩展性 1 同时在多个分辨率上进行训练比在任何单一固定分辨率下进行训练提高了 FID 2 DFU 的泛化能力超出了其训练分辨率，允许使用同一模型在更高分辨率下进行连贯、高保真生成，即零样本超级分辨率图像生成 3 我们提出了一种微调策略，以进一步增强模型的零样本超分辨率图像生成能力，在 FFHQ 上最大训练分辨率的 1.66 倍下获得 11.3 的 FID，这是其他方法无法接近的

Redefining Recon: Bridging Gaps with UAVs, 360 degree Cameras, and Neural Radiance Fields
Authors Hartmut Surmann, Niklas Digakis, Jan Nicklas Kremer, Julien Meine, Max Schulte, Niklas Voigt
在灾难情况下的数字态势感知领域，准确的数字表示（如 3D 模型）发挥着不可或缺的作用。为了确保救援队的安全，通常会部署机器人平台来生成这些模型。在本文中，我们介绍了一种创新方法，该方法将小于 30 厘米、配备 360 度摄像头的紧凑型无人机的功能与神经辐射场 NeRF 的先进技术相结合。 NeRF 是一种专门的神经网络，可以使用 2D 图像推断出任何场景的 3D 表示，然后根据请求从各个角度进行合成。这种方法特别适合遭受严重破坏的城市环境，在地震后和严重火灾后，建筑物的结构完整性会受到损害，导致无法进入。

The possibility of making $\$138,000$ from shredded banknote pieces using computer vision
Authors Chung To Kong
每个国家都必须处理旧纸币。在香港金融管理局游客中心，游客可以购买装满碎钞票的镇纸纪念品。尽管撕碎的钞票很小，但通过计算机视觉，可以像拼图游戏一样重建整张钞票。每份镇纸纪念品售价100港元，据称内含相当于138张完整的1000港元纸币的碎纸币。理论上，利用计算机视觉可以追回138,000港元。

Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints
Authors Giampiero Salvi
本文描述了连接主义技术在具有强延迟约束的语音识别中的使用。这些约束是通过将语音字符串输入到发音合成器中，从语音信号中实时导出合成面部的嘴唇运动的任务所施加的。特别注意分析在不同延迟条件下多层感知器学习的时间演化模型与维特比解码器施加的转换模型之间的相互作用。进行了两个实验，其中语言模型 LM 中的时间依赖性由参数控制。

Optimizing Feature Selection for Binary Classification with Noisy Labels: A Genetic Algorithm Approach
Authors Vandad Imani, Elaheh Moradi, Carlos Sevilla Salcedo, Vittorio Fortino, Jussi Tohka
嘈杂标签场景中的特征选择仍然是一个未被充分研究的主题。我们提出了一种基于遗传算法的新颖方法，即噪声感知多目标特征选择遗传算法 NMFS GA，用于在带有噪声标签的二元分类中选择最佳特征子集。 NMFS GA 提供了一个统一的框架来选择准确且可解释的特征子集。我们在带有标签噪声的合成数据集、富含噪声特征的乳腺癌数据集以及用于痴呆转换预测的现实世界 ADNI 数据集上评估 NMFS GA。

Fully Automated Tumor Segmentation for Brain MRI data using Multiplanner UNet
Authors Sumit Pandey, Satyasaran Changdar, Mathias Perslev, Erik B Dam
不同肿瘤区域的自动分割对于儿科脑肿瘤的准确诊断和治疗计划至关重要。本研究评估了 Multi Planner U Net MPUnet 方法在三个具有挑战性的数据集（儿科肿瘤挑战 PED、脑转移挑战 MET 和撒哈拉以南非洲成人胶质瘤 SSA）中分割不同肿瘤亚区域的功效。这些数据集代表了不同的场景和解剖变化，使其适合评估 MPUnet 模型的稳健性和泛化能力。通过利用多平面信息，MPUnet 架构旨在提高分割精度。我们的结果显示，在评估的挑战中，性能水平各不相同，肿瘤核心 TC 类表现出相对较高的分割精度。然而，在其他类别的分割中观察到变异性，例如水肿和增强肿瘤 ET 区域。

UAV-borne Mapping Algorithms for Canopy-Level and High-Speed Drone Applications
Authors Jincheng Zhang, Artur Wolek, Andrew R. Willis
本文对 UAV 无人机应用的最先进测绘算法进行了全面的回顾和分析，重点关注冠层和高速场景。本文对适用于无人机测绘的传感器技术进行了全面的探索，评估了它们提供满足快速无人机测绘要求的测量的能力。此外，该研究在模拟环境中进行了大量实验，以评估三种不同映射算法 Direct Sparse Odometry DSO、Stereo DSO SDSO 和 DSO Lite DSOL 的性能。这些实验深入研究了映射精度和映射速度，为了解每种算法的优点和局限性提供了宝贵的见解。结果凸显了这些算法在满足现代无人机应用需求方面的多功能性和缺点。这些发现有助于对无人机测绘动态的细致了解，强调其在复杂环境和高速场景中的适用性。

Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model
Authors Taehee Kim, Yeongjae Cho, Heejun Shin, Yohan Jo, Dongmyung Shin
视觉问答 VQA 是一项给定图像，并针对该图像提出一系列问题的任务。为了构建高效的VQA算法，需要大量的QA数据，这是非常昂贵的。基于模板生成合成问答对是一种获取数据的实用方法。然而，基于这些数据训练的 VQA 模型在复杂的人类书面问题上表现不佳。为了解决这个问题，我们提出了一种新方法，称为人类书面问题 QA 链 CoQAH。 CoQAH 利用大型语言模型和在合成数据上训练的 VQA 模型之间的一系列 QA 交互来推理并得出人类书面问题的逻辑答案。我们在两种类型的人类编写的 VQA 数据集（针对 3D 渲染和胸部 X 射线图像）上测试了 CoQAH 的有效性，发现它在两种类型的数据中都实现了最先进的准确性。

MedTransformer: Accurate AD Diagnosis for 3D MRI Images through 2D Vision Transformers
Authors Yifeng Wang, Ke Chen, Yihan Zhang, Haohan Wang
脑图像中 AD 的自动诊断正在成为支持精确、高效的诊断和治疗计划的临床重要技术。使用三维 CNN 在磁共振成像 MRI 中自动诊断 AD 已经做出了一些努力。然而，由于3D模型的复杂性，无论是在精度还是效率上，表现仍然不尽如人意。为了克服 3D 图像和 3D 模型的复杂性，在本研究中，我们的目标是使用 2D 视觉 Transformer 来解决这个问题。我们提出了一种基于 2D Transformer 的医学图像模型，具有各种 Transformer 注意编码器，通过将 3D 图像切割成多个 2D 切片来诊断 3D MRI 图像中的 AD。该模型由四个主要组件组成：跨三个维度的共享编码器、维度特定编码器、注意力跨越同一维度的图像，以及跨越三个维度的注意力。它用于获取不同维度轴向、冠状、矢状和多个切片的多个序列之间的注意力关系。我们还提出了形态增强，一种基于侵蚀和膨胀的方法，以增加 AD 和正常图像之间的结构差异。在本实验中，我们使用 ADNI、AIBL、MIRAID、OASIS 的多个数据集来展示我们模型的性能。我们提出的 MedTransformer 展示了诊断 AD 的强大能力。

Demystifying Variational Diffusion Models
Authors Fabio De Sousa Ribeiro, Ben Glocker
尽管扩散模型越来越受欢迎，但对于非平衡统计物理学的新手来说，深入了解模型类别仍然有些困难。考虑到这一点，我们使用定向图形建模和变分贝叶斯原理对扩散模型进行了更直接的介绍，这对普通读者提出了相对较少的先决条件。我们的阐述构成了全面的技术回顾，涵盖从深层潜变量模型等基本概念到基于连续时间扩散的建模的最新进展，强调了模型类之间的理论联系。我们尽可能提供在开创性著作中省略的额外数学见解，以帮助理解，同时避免引入新的符号。

Segmentation of Mediastinal Lymph Nodes in CT with Anatomical Priors
Authors Tejas Sudharshan Mathai, Bohan Liu, Ronald M. Summers
目的胸部淋巴结由于各种病变（例如肺癌或肺炎）而有增大的趋势。临床医生定期测量淋巴结大小以监测疾病进展、确认转移性癌症并评估治疗反应。然而，LN 的形状和外观各不相同，因此识别 LN 变得很困难，因为 LN 位于大多数器官之外。方法我们建议利用公共 TotalSegmentator 工具生成的 28 种不同结构（例如肺、气管等）的解剖先验来分割纵隔中的淋巴结。使用公共 NIH CT 淋巴结数据集中提供的 89 名患者的 CT 体积来训练三个 3D nnUNet 模型来分割 LN。使用包含 15 名训练分布之外的患者的公共 St. Olavs 数据集来评估分割性能。结果对于15名测试患者，3D级联nnUNet模型获得了最高的Dice评分，短轴直径geq 8mm的纵隔淋巴结分别为72.2±22.3，所有淋巴结分别为54.8±23.8。这些结果表明比在相同测试数据集上评估的当前方法提高了 10 个百分点。结论据我们所知，我们是第一个利用 28 个不同的解剖学先验来分割纵隔淋巴结的人，并且我们的工作可以扩展到身体的其他淋巴结区域。

Leveraging Frequency Domain Learning in 3D Vessel Segmentation
Authors Xinyuan Wang, Chengwei Pan, Hongming Dai, Gangming Zhao, Jinpeng Li, Xiao Zhang, Yizhou Yu
冠状动脉微血管疾病对人类健康构成重大风险。利用计算机辅助分析和诊断系统，医疗专业人员可以在疾病进展的早期进行干预，其中 3D 血管分割是一个关键组成部分。然而，传统的 U Net 架构往往会产生不连贯且不精确的分割结果，特别是对于小型血管结构。虽然具有注意力机制的模型（例如 Transformer 和大型卷积核）表现出卓越的性能，但它们在训练和推理过程中的大量计算需求导致时间复杂度增加。在本研究中，我们利用傅立叶域学习作为 3D 分层分割模型中多尺度卷积核的替代品，这可以减少计算开销，同时保留网络内的全局感受野。此外，设计了零参数频域融合方法来改善U Net架构中的跳跃连接。

Scissorhands: Scrub Data Influence via Connection Sensitivity in Networks
Authors Jing Wu, Mehrtash Harandi
机器取消学习已成为消除训练模型中数据影响的关键任务。它遵守最新的数据监管标准，并增强机器学习应用程序的隐私和安全性。大多数现有的机器取消学习方法都表现良好，但是，它们通常需要访问全部剩余数据，这在某些情况下可能不可行。在这项工作中，我们提出了一种新的机器反学习方法 Scissorhands，该方法仅使用训练数据的子集即可有效运行。最初，剪刀手通过连接敏感性识别给定模型中相对于遗忘数据最相关的参数。该过程涉及重新初始化这些参数中最具影响力的前 k%，从而产生用于消除遗忘数据的影响的修剪模型。随后，Scissorhands 通过最小最大优化过程重新训练修剪后的模型，寻找保留剩余数据信息的参数，同时丢弃与遗忘数据相关的信息。

Prediction of Cellular Identities from Trajectory and Cell Fate Information
Authors Baiyang Dai, Jiamin Yang, Hari Shroff, Patrick La Riviere
确定成像序列中的细胞身份是一项重要但具有挑战性的任务。细胞识别的传统方法是通过细胞跟踪，该方法复杂且耗时。在这项研究中，我们提出了一种利用机器学习在早期秀丽隐杆线虫胚胎发生过程中进行细胞识别的创新方法。我们采用随机森林、MLP 和 LSTM 模型，并在胚胎发生前 4 小时的 3D 延时共聚焦数据集上测试了细胞分类的准确性。通过利用单个细胞的少量时空特征（包括细胞轨迹和细胞命运信息），即使数据有限，我们的模型也能实现超过 90 的准确度。我们还确定最重要的特征贡献，并可以在生物知识的背景下解释这些特征。

Deep Learning model predicts the c-Kit-11 mutational status of canine cutaneous mast cell tumors by HE stained histological slides
Authors Chlo Puget, Jonathan Ganz, Julian Ostermaier, Thomas Konrad, Eda Parlak, Christof Albert Bertram, Matti Kiupel, Katharina Breininger, Marc Aubreville, Robert Klopfleisch
目前在犬肥大细胞肿瘤的活检中通过组织病理学评估许多预后因素，以评估临床行为。此外，通常对 c Kit 外显子 11 突变状态进行 PCR 分析，以评估酪氨酸激酶抑制剂治疗的潜在成功率。该项目旨在训练深度学习模型 DLM，仅根据形态学来识别 MCT 的 c Kit 11 突变状态，无需额外的分子分析。 195 个突变肿瘤和 173 个非突变肿瘤的 HE 载玻片在两个不同的实验室连续染色，并用三个不同的载玻片扫描仪进行扫描。这导致整个幻灯片图像的六个不同数据集染色扫描仪变化。 DLM 使用单一和混合数据集进行训练，并在扫描仪和染色域转换下评估其性能。 DLM 根据其 c Kit 11 突变状态对 HE 载玻片进行了正确分类，平均在 87 个病例中找到最适合的染色扫描仪变体。当训练和测试数据集的染色扫描仪组合不同时，可以观察到相关的性能下降。多变体数据集提高了平均准确度，但没有达到在相同染色扫描仪变体上训练和测试的算法的最大准确度。综上所述，DLM辅助MCT形态学检查可以高精度预测MCT c Kit外显子11突变状态。然而，扫描仪或染色协议的改变会阻碍识别性能。

D-STGCNT: A Dense Spatio-Temporal Graph Conv-GRU Network based on transformer for assessment of patient physical rehabilitation
Authors Youssef Mourchid, Rim Slama
本文解决了自动评估在没有临床医生监督的情况下进行锻炼的患者的身体康复锻炼的挑战。目标是提供质量分数以确保正确的性能并达到预期的结果。为了实现这一目标，引入了一种新的基于图的模型，即带有 Transformer 的密集时空图卷积 GRU 网络。该模型结合了 STGCN 的修改版本和变压器架构，可有效处理时空数据。关键思想是将骨骼数据考虑为图形，尊重其非线性结构，并检测在每个康复练习中发挥主要作用的关节。密集连接和 GRU 机制用于快速处理大型 3D 骨架输入并有效地建模时间动态。 Transformer 编码器的注意力机制侧重于输入序列的相关部分，这使其对于评估康复练习非常有用。我们在 KIMORE 和 UI PRMD 数据集上提出的方法的评估凸显了其潜力，在准确性和计算时间方面超越了最先进的方法。这使得康复练习的学习和评估更快、更准确。

Artificial Intelligence for Digital and Computational Pathology
Authors Andrew H. Song, Guillaume Jaume, Drew F.K. Williamson, Ming Y. Lu, Anurag Vaidya, Tiffany R. Miller, Faisal Mahmood
组织切片数字化的进步以及包括深度学习在内的人工智能的快速进步推动了计算病理学领域的发展。该领域在自动化临床诊断、预测患者预后和治疗反应以及从组织图像中发现新的形态生物标志物方面具有巨大潜力。其中一些基于人工智能的系统现已获得批准用于辅助临床诊断，但是，其广泛临床采用和集成作为研究工具仍然存在技术障碍。本综述巩固了计算病理学在整个幻灯片图像中预测临床终点的最新方法学进展，并强调了这些进展如何实现临床实践的自动化和新生物标志物的发现。

Minuet: Accelerating 3D Sparse Convolutions on GPUs
Authors Jiacheng Yang, Christina Giannoula, Jun Wu, Mostafa Elhoushi, James Gleeson, Gennady Pekhimenko
稀疏卷积 SC 广泛用于处理本质上稀疏的 3D 点云。与密集卷积不同，SC 通过仅允许输出到特定位置来保留输入点云的稀疏性。为了有效地计算SC，现有的SC引擎首先使用哈希表来构建内核映射，该内核映射存储要执行的映射步骤所需的通用矩阵乘法GEMM操作，然后使用Gather GEMM Scatter过程来执行这些GEMM操作GMaS步骤。在这项工作中，我们分析了现有最先进 SC 引擎的缺点，并提出了 Minuet，一种专为现代 GPU 量身定制的新型内存高效 SC 引擎。 Minuet 建议用一种新颖的分段排序双遍历二分搜索算法替换 Map 步骤中使用的哈希表，该算法高度利用 GPU 的片上内存层次结构，ii 使用轻量级方案来自动调整 Gather 和 Scatter 操作中的图块大小iii 采用填充高效的 GEMM 分组方法，减少内存填充和内核启动开销。我们的评估表明，对于端到端点云网络执行，Minuet 的性能明显优于之前的 SC 引擎，平均性能提高 1.74 倍至 2.22 倍。我们新颖的分段排序双遍历二分搜索算法在 Map 步骤中比之前的 SC 引擎平均加速 15.8 倍，最高可达 26.8 倍。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(计算机视觉,视觉,Papers,人工智能,计算机视觉,CV,Computer,vision,多模态,3D,重建)

MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
元宇宙中的视觉技术：虚拟化身与场景生成 xcLeigh 计算机视觉CV 元宇宙虚拟化身场景生成 AIGC 数字孪生
元宇宙中的视觉技术：虚拟化身与场景生成前言一、元宇宙与视觉技术的深度关联1.1元宇宙概念深度剖析1.2视觉技术：元宇宙的“灵魂之窗”二、虚拟化身：数字世界的“第二自我”2.1虚拟化身技术的深度解析2.1.1核心技术构成2.1.2技术实现原理与流程2.2虚拟化身的应用领域及案例展示2.2.1游戏娱乐领域2.2.2教育培训领域三、场景生成：构建元宇宙的虚拟天地3.1场景生成技术全景透视3.1.1关键技
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元 Liudef06小白特殊专栏 AIGC 人工智能 AI作画人工智能 AIGC
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元随着多模态AI技术的爆发式发展，StableDiffusionXL（SDXL）等文生图模型正在彻底重塑创意产业工作流。本文将深入解析如何在魔搭平台高效训练SDXL模型，并探讨AI绘画技术对设计行业的革命性影响。一、SDXL模型架构解析1.1双文本编码器设计SDXL采用双文本编码器架构，显著提升提示词理解能力：#SDXL文本编码器结构示意c
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
2024最新微信红包封面序列号大全+领取时间表(持续更新) 全网优惠分享
微信红包封面序列号兑换码，每天，我们都在奔波于现实的雾霾里。工作、生活、压力、困扰，如同无尽的泥潭，让我们时刻感到疲惫不堪。然而，在这个被喧嚣包围的世界，我们是否还能保持内心的宁静和平淡？微.信搜索:「封面院」关注公众号可领取红包封面序列号。最新微信红包封面序列号：先到先得，抢完为止：1、pdiqgLsY1lR2、vC8tY0VRf3D3、j0kzzrfwl6Y4、dqRCUZ0lwmJ5、ldT
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
D13-0729-阿凡提阿凡提在冰川
D13D13-0729-阿凡提如何避开听力训练中的常见坑——Zoe分享听力训练中的常见坑听力训练中的常见坑看不懂，写不出：生词障碍，背景知识能看看懂，写不出：口音、语音现象（连读、弱读、爆破等）、语法一些语音现象失去爆破：两个爆破音连在一起，前面的失去爆破击穿：辅音、爆破音后面接h一般不发音，Youkown听力练习最大的坑听完不复习表现：：听完不对材料进行复习，仅仅对一些错词进行更正，不做进一步拓
2021-08-03英语单词背诵Unit33 从入门到放弃_菠萝君
这里的单词只是我个人的一些联想记忆，如果大家有什么更好的记忆方式，可以在评论区分享出来，感谢。或者有什么觉得特别难记忆的单词和语法也可以分享出来，大家一起讨论记忆。Unit33dumb 拆分：du（毒）+mb（面包）联想：毒面包吃下去就变哑了释义：a.哑的，哑口无言的，愚蠢的dye 对比：eye眼睛dye染料，染色ruralechoreflectrepeat 拆分：rep（热评）+eat（吃）
几张电影票《阿凡达水之道》梅落如雪
夫喜欢视觉和听觉的盛宴，追求极致画面和声音的享受，我却一直不愿意为家里买一个硕大的电视。因为这些年，走在贫农的路线，却始终努力追求高端电视，最终的经验是，买一台好电视--浪费！我说阿凡达出来水之道，他却说如果不去万达的电影院，别的影院去没意思，视觉效果和听觉效果都不好。唉，我摸摸口袋里的三瓜俩枣，心里默默心疼了一下银子。为了几两碎银子，天天上班，我容易嘛。结果这小子追求这个。。。。他说要不不去看了
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
大学生入门：初识方法及其易踩坑的点
在java学习过程中，我们不难发现有很多重复使用的功能代码块，每次使用如果都要重新写一遍，岂不是很麻烦，就算是“cv”大法，感觉也不是很方便，那么，有什么办法可以解决这个问题呢？方法！java中，一段可重用的，用于执行特定功能的代码块叫做方法，它可以接收参数、返回结果，并且可以被多次使用。一、方法的基本结构[修饰符]返回值类型方法名([参数列表])[throws异常类型]{//方法体}[throw
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
2025最新Mybatis-plus教程（三）
四、MyBatis-Plus条件构造器（一）条件构造器介绍在MyBatis-Plus中提了构造条件的类Wrapper，它可以根据自己的意图定义我们需要的条件。Wrapper是一个抽象类，一般情况下我们用它的子类QueryWrapper来实现自定义条件查询。（二）selectOne方法@TestpublicvoidtestSelectOne(){ QueryWrapperqueryWrapper=n
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
4D卓越团队-习书C3 林晔0302
第三章4D系统-----神奇坐标的诞生一诞生背景：1物理学背景简化的二乘二矩阵，坐标系；2荣格1905年发表的人的性格发展理论；词汇参考MBTI指标坐标轴X：作出决策是用情感还是逻辑坐标轴Y：获取信息是靠直觉还是感觉。五感：视觉听觉嗅觉味觉触觉占70%二4D系统分析领导力领导者特征四维度：情感与直觉----绿色培养型情感与感觉---黄色包容型逻辑与直觉---蓝色展望型逻辑与感觉--橙色指导型三4D
高铁站违规撑伞识别误检率↓79%：陌讯多模态融合算法实战解析 2501_92722744 算法人工智能目标检测计算机视觉目标跟踪
原创声明本文为原创技术解析，核心技术参数与架构参考自《陌讯技术白皮书》，禁止未经授权的转载与改编。一、行业痛点：密集场景下的违规撑伞识别难题在高铁站、地铁站等交通枢纽，违规撑伞（如非雨天在站台、通道内持伞）可能引发客流拥堵、设备刮擦等安全隐患。然而，传统视觉识别方案面临三大核心挑战：环境干扰大：进出站口光线突变（正午强光/夜间弱光）导致伞面特征提取不稳定，某枢纽站点实测数据显示，阴雨天违规撑伞识别
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

【AI视野·今日CV 计算机视觉论文速览 第290期】Mon, 15 Jan 2024

Daily Computer Vision Papers

你可能感兴趣的:(计算机视觉,视觉,Papers,人工智能,计算机视觉,CV,Computer,vision,多模态,3D,重建)

【AI视野·今日CV 计算机视觉论文速览第290期】Mon, 15 Jan 2024