s1ckrain

【论文阅读】SAM2LONG: ENHANCING SAM 2 FOR LONGVIDEO SEGMENTATION WITH A TRAINING-FREE MEMORY TREE

SAM2LONG: ENHANCING SAM 2 FOR LONGVIDEO SEGMENTATION WITH A TRAINING-FREE MEMORY TREE

原文摘要：
- 背景与问题：
  - SAM 2 是一种强大的基础模型，用于图像和视频中的对象分割。
  - 其记忆模块通过从先前帧提取对象感知记忆来辅助当前帧预测。
  - 但贪心选择的记忆设计存在“错误累积”问题，影响长视频分割性能。
- 解决方案：
  - 提出 SAM2Long，一种无训练的视频对象分割策略。
  - 通过考虑每帧的分割不确定性，以约束树搜索方式选择最优分割路径。
  - 维护固定数量的分割路径，每帧生成多个掩码候选（在存在的分割路径上生成），选择累积得分较高的分支作为下一帧路径。
  - 在处理完最后一帧后，整条分割选择路径作为分割结果
- 核心优势：
  - 启发式搜索设计，对遮挡和对象重新出现具有鲁棒性。
  - 无需额外参数或训练，显著提升长视频分割性能。
- 实验结果：
  - 在六个视频对象分割（VOS）基准测试中一致优于 SAM 2。
  - 在长视频分割基准（如 SA-V 和 LVOS）中，J&F 指标平均提升 3.0 点，最高提升 5.3 点。

1. 介绍

1.1 SAM 2 的成就与局限性

SAM 2 是一种统一的基础模型，在图像和视频的提示性对象分割任务中表现出色，超越了以往方法。
其记忆模块通过存储先前帧的上下文信息，支持视频帧的连续处理并保持对象一致性。
然而，SAM 2 的贪心分割策略在处理遮挡和对象重新出现等复杂场景时表现不佳，存在**“错误累积”**问题。
- 贪心分割策略：每次mask生成时，总是选择得分最高的
  - 这种策略在简单情况下表现很好，但会提高在有难度的帧上的分割错误可能
  - 只要一个错误的mask被放入了内存中，那么会误导之后一系列帧的分割情况

1.2 改进动机

SAM 2 的掩码解码器在处理复杂和模糊情况时会生成多个掩码，但仅选择其中一个作为记忆，可能忽略正确掩码。
通过引入多记忆路径，可以存储多个掩码作为记忆，从而改进后续帧的预测。

1.3 研究目标

重新设计 SAM 2 的记忆模块，增强其长期分割能力和对遮挡及错误传播的鲁棒性。
改进方法无需额外训练或引入外部参数，仅通过优化 SAM 2 自身潜力实现。

1.4 方法概述

提出一种约束树记忆结构，维护固定数量的记忆路径，探索多个分割假设 — 通过有效的计算资源管理
在每个时间步生成多个候选分支，选择累积得分较高的分支，修剪其他分支以限制树增长。
- 每个分支有自己的memory bank和累积得分（累积分数 = 路径中所有帧预测的 IoU 分数的对数和）
- 累积得分反应了整体分割质量
在分割时，可能会因为遮挡，或对象重新出现过早收敛到错误的分割假设，导致结果不准确
- 解决方案：
  - 遮挡分数（occlusion scores）–用于衡量当前帧中目标对象被遮挡的程度。
    - 当遮挡分数较高时，表明当前帧的分割结果可能不确定或不准确。
  - 当遮挡分数指示不确定性时，选择**预测掩码显著不同(distinct)**的假设（hypotheses）。
最终选择累积得分最高的路径作为分割结果，这种方式有效的克服了SAM2的错误积累

1.5 记忆模块优化

构建对象感知记忆库，选择性存储高质量分割帧，避免存储遮挡或分割不佳的帧。
- 通过遮挡分数和IoU分数来选择高质量分割帧
- 相反，SAM2本身只会选择临近的帧来作为分割条件
根据遮挡分数加权记忆条目，在交叉注意力中强调更可靠的条目，提高分割准确性。

1.6 研究意义

SAM2Long 为基于 SAM 2 的视频对象分割设定了新标准，在复杂实际应用中提供更优性能。
改进方法简单高效，适用于各种视频分割任务，具有广泛的应用潜力。

2. 相关工作

2.1 视频目标分割 VOS

视频目标分割旨在从视频序列中分割并跟踪特定目标，模仿人类对环境的对象感知能力。VOS 的研究近年来取得了显著进展，主要分为以下两种评估协议：（这两种协议都是在推理阶段定义的，VOS可以在训练阶段利用真实标注）
- 半监督 VOS：提供第一帧的目标掩码，模型在后续帧中跟踪这些目标。
- 无监督 VOS：模型直接从背景中分割出最显著的目标，无需参考信息。

2.2 基于记忆的 VOS

VOS 面临的主要挑战包括目标变形、动态运动、长时间消失后重现以及遮挡等问题。为了解决这些问题，必须应用一个记忆架构存储过去帧中的物体信息。
- 过去解决VOS的方法：（非记忆读取架构）
  - 在线学习：在视频的第一帧中，目标对象被手动或自动标注（如提供掩码或边界框）。使用第一帧的标注信息，对预训练模型进行微调，使其适应目标对象的特征。微调后的模型被用于分割视频的后续帧，跟踪目标对象。-- drawback：time-consuming
  - 模版匹配：模板通常是目标对象在第一帧或前几帧中的外观特征（如掩码、边界框或特征向量）。
    
    在后续帧中，模型通过匹配模板来定位和分割目标对象。-- drawback：缺乏遮挡处理能力
基于记忆的 VOS 方法通过存储过去帧中的目标信息，来提升目标跟踪的准确性。
- 像素级注意力：如 XMem和 Cutie，通过分层内存结构处理像素特征。
- SAM 2：在 SAM 的基础上增加了简单内存模块，用于视频分割任务。
  - 然而，SAM 2 在处理长时间重现目标和相似目标时表现不佳。因此，研究者对 SAM 2 的内存设计进行了改进，使其能够维护多个潜在的正确掩码，从而提升模型的鲁棒性。

2.3 Segment Anything Model (SAM)

SAM 是一个里程碑式的视觉基础模型，能够通过交互式提示分割图像中的任何目标。其零样本迁移能力在分割、图像编辑和对象重建等任务中展现了强大的通用性。
SAM 2在 SAM 的基础上扩展了视频分割功能，通过基于记忆的 Transformer 架构实现实时视频处理。为了进一步提升 SAM 2，研究者引入了约束内存树结构，利用其生成多个候选掩码的能力，减少分割过程中的错误积累。

3. 方法

3.1 SAM 2 的初步介绍

3.1.1 图像编码器

SAM 2 使用图像编码器将每一帧输入编码为嵌入（embeddings）。
与 SAM 不同，SAM 2 引入了记忆模块，将当前帧的特征与先前帧和提示帧的特征相结合。

3.1.2 记忆模块

**记忆库（Memory Bank）：**每一帧处理完后，记忆库更新，存储最新的帧信息
- 在时间步 t ≥ 1 时，SAM 2 维护一个记忆库 M_t，存储最近 N 帧的记忆条目。
- 记忆库的定义为：
  $\mathcal{M}_t = \{\mathbf{M}_\tau \in \mathbb{R}^{K \times C}\}_{\tau \in \mathcal{T}_t}$
  其中：
  - M_t 是时间t的记忆库
  - M_τ 是记忆库中的一个记忆条目，表示帧 τ 的特征。
    - K 是每帧的记忆 token 数量，
    - C 是通道维度，即每个toekn的特征纬度
      - K*C表示矩阵的维度
    - I 是记忆中包含的帧索引集合，I_max<=N
- 使用**先进先出（FIFO）**机制管理记忆库，确保记忆库中始终存储最新的 N 帧。
记忆条目的组成：
1. 空间嵌入（Spatial Embedding）：
  - 与预测掩码融合的嵌入，由记忆编码器生成。
2. 对象级指针（Object-level Pointer）：
  - 由掩码解码器生成的指向目标对象的信息。
跨注意力机制（Cross-Attention）：
- 通过跨注意力机制，当前帧的特征与记忆库中的信息结合，整合了细粒度对应关系和对象级语义信息。

3.1.3 掩码解码器

功能：
- 掩码解码器为当前帧生成三个预测掩码，每个掩码附带一个预测的 IoU 分数和一个输出掩码 token（object- level）。
- 预测一个遮挡分数 o_t：
  - o_t > 0 表示目标对象存在，
  - o_t < 0 表示目标对象不存在，
  - |o_t | 表示模型的置信度。
掩码选择：
- 选择预测 IoU 分数最高的掩码作为最终预测。
- 将被选择的掩码的输出 token 转换为对象指针，存储到记忆中，用于后续帧的分割。

3.2 具有不确定性处理的约束性记忆树

增强 SAM 2 在长视频和模糊场景中的鲁棒性。
通过引入约束树记忆结构，探索多种对象状态，同时最小化计算开销。

约束性记忆树的pipline

3.2.1 约束性记忆树的结构

多路径维护：
- 在每一帧 t，维护 P 个记忆路径（pathways），每个路径包括：
  - 一个记忆库 M_t^p（一共有p个记忆库）
  - 一个累积分数 S_p[t]，表示到帧 t 为止的分割假设（同理，一共有p个分数）
分支扩展：
基于每个路径的记忆库，SAM 2 解码器生成三个掩码候选及其 IoU 分数IoU_{p,t}¹, IoU_{p,t}², IoU_{p,t}³
这样，每个路径扩展为三个候选分支，总共有 3P 个可能的路径。
累积分数计算：
- 计算每个候选路径的累积分数：
  $S_{p,k}[t] = S_p[t-1] + \log(IoU_{t}^{p,k} + \epsilon), k =1,2,3$
- 其中 ε 是一个小常数，防止对零取对数。

3.2.2 剪枝策略

为了避免计算和内存成本过高，选择累积分数最高的前 P 个路径，继续到下一帧。
剪枝策略：
- 保留最有希望的分割假设，
- 约束树结构的增长，确保计算效率。

3.2.3 最终结果选择 & 计算效率

最终结果选择：
- 在处理完最后一帧后，选择累积分数最高的路径作为最终分割结果
计算效率：
- 约束树记忆结构主要增加了掩码解码器和记忆模块的计算，但由于这些组件轻量级，整体计算成本增加有限。
- 图像编码器仅处理一次，与 SAM 2 相同

3.2.4 不确定性处理

问题： 当所有(即max）路径的遮挡分数 **|o_t^P |**低于预设阈值 δ_conf 时，所有路径都不确定。
解决方案：
- 选择unique的IoU 分数的掩码候选，以保持路径的多样性–避免模型过早收敛到错误的预测
具体实现：
- 将IoU分数四舍五入到两位小数
- 将四舍五入后不同的IoU分数对应的掩码候选–选择不同形状的掩码（Distinct-shaped Mask）
  - 例如，如果IoU_{p,t}¹=0.75 和 IoU_{p,t}²= 0.76，则选择这两个掩码候选。
  - 如果IoU_{p,t}¹=0.75 和 IoU_{p,t}²=0.75，则只选择其中一个掩码候选

3.3 对象感知记忆库构建

构建一个对象感知的记忆库，提供有效的目标对象信息。
通过记忆注意力调制，增强模型对目标对象的关注。

3.3.1 记忆帧的选择

选择标准：
从先前帧中选择具有高置信度目标对象和高质量分割掩码的帧，构建记忆库。
具体步骤：
1. 从当前帧 t 的前一帧开始，依次检查每帧的**遮挡分数 o_i ** 和 IoU 分数 IoU_i --从 t 到1（就近帧对象特征显著）
2. 如果帧 i 满足以下条件，则将其加入记忆库：
  
  IoU_i > δ_IoU and o_i > 0
  - 其中 δ_IoU 是预设的 IoU 阈值。
3. 继续选择，直到记忆库中包含最多 N 帧。
与 SAM 2 的区别：
SAM 2 直接选择最近的 N 帧作为记忆条目，而 SAM2Long 通过筛选条件，过滤掉遮挡、目标缺失或分割不佳的帧，提供更鲁棒的目标对象信息。

3.3.2 记忆注意力调制

目标：
在交叉注意力计算中，强调更可靠的记忆条目，提升分割准确性。
具体步骤：
1. 定义标准权重：
- 定义一组标准权重 W_std，线性分布在W_low和 W_high 之间：
$W_{std} = \left\{ w_{low} + \frac{i-1}{N} (w_{high} - w_{low}) \right\}_{i=1}^{N+1}$
- 其中
  - W_std：
    表示标准权重的集合，包含 N+1 个权重值。
  - w_low 和 w_high：
    分别是权重的下限和上限。
1. 排序遮挡分数：
  - 将记忆条目的遮挡分数按升序排序，得到排序后的索引，使得：o_I₁ ≤ o_I₂ ≤ ⋯ ≤ o_{I_N+1}
2. 分配权重：
  - 根据排序后的索引，将标准权重分配给记忆条目：
  $w_{I_i} = W_i^{std}, \quad \text{对于} \quad i = 1, 2, \ldots, N+1$
3. 调整记忆键：
  - 将原始记忆键 Mτ 与对应权重相乘，得到调制后的记忆键 M̃τ：
  $\tilde{M}_\tau = w_\tau \cdot M_\tau, \quad \text{对于} \quad \tau \in I$

然后更新对应记忆键

4. 实验

4.1 数据集

SA-V：大规模、多样化场景，包含小目标和遮挡。
LVOS v1/v2：长期对象分割，强调对象重新出现和泛化能力。
MOSE：复杂真实场景，高质量分割掩码。
VOST：复杂对象变换，对象外观显著变化。
PUMaVOS：挑战性分割任务，标注边界与视觉线索不对齐。

4.2 主要结果

4.2.1 SAM2Long 对 SAM 2 的改进

整体表现：
SAM2Long 在所有模型大小和数据集上均显著优于 SAM 2。
- 在 SA-V 验证集和测试集以及 LVOS v2 验证集上，SAM2Long 的平均性能提升了 3 个 J & F 分数点。
- 例如，SAM2Long-Large 在 SA-V 验证集和测试集上分别比 SAM 2 提升了 4.5 和 5.3 分。
- 在 LVOS 验证集上，SAM2Long 对每个模型大小均表现出显著的性能提升。
训练免费记忆树的有效性：
- 结果表明，训练免费记忆树 在长期视频分割场景中显著提升了模型性能。

4.2.2 SAM2Long 与现有方法的对比

SA-V 数据集：
- SAM2Long 在 SA-V 验证集上的 J & F 分数为 81.1，比 SAM 2.1 提升了 2.5 分。
LVOS 数据集：
- 在 LVOS v1 和 v2 子集上，SAM2Long 的 J & F 分数分别为 83.4 和 85.9，比 SAM 2.1 提升了 3.2 和 1.8 分。
未见类别的表现：
- SAM2Long 在未见类别上的 J 和 F 分数分别为 79.1 和 86.2，比 SAM 2 提升了 7.5 和 5.1 分，展示了其强大的泛化能力。

4.2.3 SAM2Long 在处理多样化挑战中的表现

PUMaVOS 数据集：
- SAM2Long 的 J & F 分数为 82.4，比 SAM 2.1 提升了 1.3 分，展示了其在处理视觉线索模糊任务中的优势。
VOST 数据集：
- SAM2Long 的 J & F 分数为 54.0，比 SAM 2.1 提升了 1 分，展示了其在处理极端对象变换任务中的优势。
MOSE 数据集：
- SAM2Long 的 J & F 分数为 75.2，比 SAM 2.1 提升了 0.7 分，展示了其在处理复杂真实场景任务中的优势。
YouTube-VOS 数据集：
- SAM2Long 和 SAM 2.1 的 J & F 分数均为 88.7，表明 SAM2Long 在短期视频分割任务中保持了 SAM 2 的基本能力。

4.3 消融实验 Ablation Study

什么是消融实验
- 消融实验（Ablation Study） 是一种用于评估模型或算法中各个组件或参数对整体性能贡献的实验方法。通过逐步移除或修改模型中的某些部分，观察性能变化，从而理解每个组件的作用和重要性。
  - 包括移除/替换模块、修改参数、组合组件

以下是 4.3 消融实验（ABLATION STUDY） 的详细分析：

4.3.1 实验设置

数据集：
使用 SA-V 数据集的验证集进行实验。
默认模型：
使用 SAM2-Large 作为默认模型大小。

4.3.2 记忆路径数量 P 的影响

实验目的：
评估记忆路径数量对 SAM2Long 性能的影响。
实验结果：
- P = 1：退化为 SAM 2 基线模型。
- P = 2：J & F 分数提升至 80.1，表明记忆树有效提升了模型的跟踪能力。
- P = 3：达到最佳性能，J & F 分数进一步提升。
- P = 4：性能无显著提升，表明 P = 3 在准确性和计算效率之间达到了最佳平衡。
计算效率：
- 使用 P = 3 时，处理速度仅减慢 18%，GFlops 增加 8%，但性能提升了 4.5 分。

4.3.3 IoU 阈值 δ_IoU 的影响

实验目的：
评估 IoU 阈值对选择高质量帧的影响。
实验结果：
- δ_IoU = 0.3：J & F 分数最高，表明在过滤低质量帧和保留有价值信息之间达到了最佳平衡。
- δ_IoU = 0：J & F 分数降至 80.0，表明低质量帧会损害模型性能。
- δ_IoU = 0.9：J & F 分数降至 77.8，表明过于严格的筛选会排除潜在重要帧，导致模型依赖过远的帧作为记忆。

4.3.4 不确定性阈值 δ_conf 的影响

实验目的：
评估不确定性阈值对处理不确定情况的影响。
实验结果：
- δ_conf = 2：J & F 分数最高，表明在处理不确定情况时达到了最佳水平。
- δ_conf = 0.5：性能下降，表明过早选择错误的分割假设会导致错误传播。
- δ_conf = 5：性能无进一步提升，表明超过一定阈值后，模型无法从额外的掩码多样性中受益。

4.3.5 记忆注意力调制 [w_low, w_high] 的影响

实验目的：
评估记忆条目注意力权重的调制范围对性能的影响。
实验结果：
- [1, 1]：无调制，性能较低。
- [0.95, 1.05]：J & F 分数最高，表明轻微的调制足以强调可靠的记忆条目。
- [0.9, 1.1]：性能略有下降，表明调制范围过大可能引入噪声。

4.3.6 主要结论

记忆路径数量：
P = 3 在准确性和计算效率之间达到了最佳平衡。
IoU 阈值：
δ_IoU = 0.3 在过滤低质量帧和保留有价值信息之间达到了最佳平衡。
不确定性阈值：
δ_conf = 2 在处理不确定情况时达到了最佳水平。
记忆注意力调制：
[0.95, 1.05] 的轻微调制足以强调可靠的记忆条目。

Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
论文阅读：《针对多目标优化和应用的 NSGA-II 综述》一些关于优化算法的简介行然梦实优化算法论文阅读算法数学建模
前言提醒：文章内容为方便作者自己后日复习与查阅而进行的书写与发布，其中引用内容都会使用链接表明出处（如有侵权问题，请及时联系）。其中内容多为一次书写，缺少检查与订正，如有问题或其他拓展及意见建议，欢迎评论区讨论交流。内容由AI辅助生成，仅经笔者审核整理，请甄别食用。文章目录前言一些关于优化算法的缩写优化算法Ma,Haiping&Zhang,Yajing&Sun,Shengyi&Liu,Ting&S
视觉Transformer还有哪些点可以研究？怎么应用？计算机视觉工坊 3D视觉从入门到精通学习算法开源
0.这篇文章干了啥？今天笔者为大家推荐一篇最新的综述，详细总结了Transformer的网络架构、优化策略、发展方向，还会定期更新Github，研究注意力机制的小伙伴一定不要错过。注意机制有助于人类视觉系统有效地分析和理解复杂场景，它能够聚焦于图像的关键区域，同时忽略无关紧要的部分。受此概念启发，注意机制已经被引入到计算机视觉（CV）中，以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
Python_day54Inception网络及其思考且慢.589 Python_60 python 开发语言
一、inception网络介绍今天我们介绍inception，也就是GoogleNet传统计算机视觉的发展史从上面的链接，可以看到其实inceptionnet是在resnet之前的，那为什么我今天才说呢？因为他要引出我们后面的特征融合和特征并行处理这些思想。Inception网络，也被称为GoogLeNet，是Google团队在2014年提出的经典卷积神经网络架构。它的核心设计理念是“并行的多尺度
Python 4.0新特性解析：性能优化与语法升级知识产权13937636601 计算机 python 性能优化开发语言
本文针对Python4.0的核心升级展开系统性分析，从性能优化与语法革新两个维度揭示其技术突破。首先解析新型解释器架构对运算效率的提升路径，其次探讨模式匹配、异步编程简化和类型系统强化等语法特性，最后结合机器学习与高并发场景验证新版本的实践价值。研究发现，Python4.0通过JIT编译器与内存管理重构实现3倍以上性能跃升，同时静态类型推导的完善显著提升大型项目维护效率，标志着Python从"胶水
AI 绘画 + 编程：10 分钟生成个性化艺术作品大力出奇迹985 人工智能
本文围绕Python+OpenCV实现自动人脸识别门禁系统展开，先概述系统的基本构成与作用，再从系统核心技术、开发实现步骤、功能扩展方向、实际应用场景及优化改进策略五个方面详细阐述，最后总结系统的价值与发展前景，为相关开发和应用提供全面参考。一、系统核心技术解析人脸识别技术是门禁系统的核心，其关键在于对人脸特征的精准提取与匹配。OpenCV作为开源计算机视觉库，提供了丰富的人脸检测算法，如Haar
Python,C++,go语言开发社会犯罪人群回归社会跟踪与辅助管理APP Geeker-2025 python c++golang
开发一款用于**社会犯罪人群回归社会跟踪与辅助管理**的App，结合Python、C++和Go语言的优势，可以实现高效的数据处理、实时的跟踪监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python+Go）-**编程语言**：-**Python**：用于数据处理、机器学习（如风险评估、行为预测）、脚本编写等。-**Go**：用
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
【免费下载】探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破
探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破在这个数字化时代，人工智能正逐步改变我们的生活，其中深度学习在农业领域的应用尤其引人注目。PlantVillage-Dataset是一个开放源代码的项目，它提供了一个庞大的植物病害识别数据集，旨在帮助开发人员和研究者利用机器学习技术改善农作物健康状况的监测。本文将深入探讨该项目的技术细节、应用价值及其独特之处。项目简
【AI大模型：前沿】43、Mamba架构深度解析：为什么它是Transformer最强挑战者？无心水架构 transformer Mamba Mamba架构 AI大模型系统开发实战 AI大模型高手开发 AI大模型系统实战
Transformer架构自2017年诞生以来，一直是NLP、计算机视觉等领域的“统治级”模型架构。但随着序列长度需求的增长（如128K长文本处理、基因组学超长序列分析），其自注意力机制的O(n2)O(n^2)O(n2)计算复杂度成为难以逾越的瓶颈。2023年底，由AlbertGu和TriDao等人提出的Mamba架构，通过创新的“选择性状态空间模型（SelectiveSSM）”实现了线性复杂度（
Python 的 GIL 时代即将终结，迈向真正的多线程时代技术狂潮AI Python开发实战 AI编程实战 AI应用实战开发语言 GIL Python
Python功能强大、灵活且对程序员友好，广泛应用于从Web开发到机器学习的各个领域。根据引用次数最多的两项指标，Python甚至超越了Java和C等语言，成为最流行的编程语言。经过多年的流行，Python似乎势不可挡。但Python作为一种编程语言的未来发展至少面临一个重大障碍。它被称为GIL，即全局解释器锁，几十年来，Python开发人员一直试图将其从Python的默认实现中删除。虽然GIL在
如何从零开始入行机器学习
在当今的科技浪潮中，机器学习无疑是最耀眼的明星之一。它不仅引领了人工智能的发展，还在各个行业中催生了大量的创新和变革。对于那些对技术充满热情、渴望在这个领域有所作为的人来说，“如何从零开始入行机器学习”成为了最热门的话题之一。这不仅仅是技术上的挑战，更是一个职业生涯的新起点。想象一下，在未来的工作中，你能够开发出自动识别图像的应用程序，或者设计一个可以预测市场趋势的智能系统，这一切都源于你现在迈出
如何评价开课吧机器学习特训营这个课程？ cda2024 机器学习人工智能
开场：点明主题，吸引眼球在当今数据驱动的时代，机器学习（MachineLearning）已经成为各个行业不可或缺的技术之一。无论是金融、医疗、制造还是零售，机器学习的应用都为这些领域带来了巨大的变革。面对这样的趋势，许多人都希望能够掌握这门技术，从而提升自己的职业竞争力。那么，当我们谈论“如何评价开课吧机器学习特训营这个课程”时，实际上是在探讨一个非常具体且重要的问题：对于那些希望进入或深入机器学
《揭秘AI应用架构师在智能虚拟人设计系统中的创新思维》 SuperAGI架构师的AI实验室人工智能 ai
揭秘AI应用架构师在智能虚拟人设计系统中的创新思维关键词：AI应用架构师、智能虚拟人、系统设计、创新思维、自然语言处理、计算机视觉、实时交互摘要：智能虚拟人已从科幻走进现实，无论是直播间的虚拟主播、手机里的智能助手，还是元宇宙中的数字分身，它们背后都离不开AI应用架构师的“隐形设计”。本文将以“总设计师视角”，用生活化的比喻和实例，拆解AI应用架构师在智能虚拟人系统设计中的创新思维——从“让虚拟人
AI人工智能为空间智能领域带来的科技革新 AI云原生与云计算技术学院 AI云原生与云计算人工智能科技 ai
AI人工智能为空间智能领域带来的科技革新关键词：人工智能、空间智能、计算机视觉、SLAM、空间计算、增强现实、自动驾驶摘要：本文将深入探讨人工智能如何革新空间智能领域。我们将从基本概念出发，逐步分析AI在空间感知、理解和交互方面的突破性进展，包括SLAM技术、3D重建、空间计算等核心应用。通过生动的比喻和实际案例，揭示AI如何赋予机器"空间思维"能力，并展望这一技术融合的未来发展趋势。背景介绍目的
Anaconda（AI生成测试） harrio_ python
技术文章大纲：Anaconda插件开发挑战赛引言Anaconda作为数据科学与机器学习的核心工具，其插件生态系统的扩展性为开发者提供了广阔的创新空间。插件开发挑战赛旨在激励开发者探索Anaconda的潜力，解决实际场景中的技术痛点。以下为技术文章的核心框架。Anaconda插件开发的核心价值插件开发能够增强Anaconda的功能模块化，例如集成新的编程语言支持、优化包管理流程或扩展可视化工具。通过
Python与机器学习库Scikit-learn进阶 master_chenchengg python python Python python开发 IT
Python与机器学习库Scikit-learn进阶Scikit-learn进阶之旅：从新手到高手的必经之路为什么选择Scikit-learn？安装与环境设置特征工程的艺术：打造更强大的预测模型数据清洗特征构造模型调优秘籍：网格搜索与交叉验证的最佳实践网格搜索交叉验证集成学习的魅力：提升模型性能的组合拳随机森林梯度提升机堆叠实战案例解析：使用Scikit-learn解决真实世界问题数据准备模型训练
表征学习：机器认知世界的核心能力与前沿突破大千AI助手人工智能 #OTHER Python 学习人工智能机器学习神经网络表征学习 RL 特征工程
一、定义与背景：从特征工程到自动化学习表征学习（RepresentationLearning），又称特征学习（FeatureLearning），是机器学习的核心技术领域，其核心目标是通过算法自动学习数据的内在特征表示，将复杂多变的原始数据（如图像、文本、语音）转化为低维、富含语义信息的向量形式，从而提升下游任务（如分类、回归、聚类）的效率和精度。与传统依赖人工设计特征的特征工程（FeatureEn
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

【论文阅读】SAM2LONG: ENHANCING SAM 2 FOR LONGVIDEO SEGMENTATION WITH A TRAINING-FREE MEMORY TREE

SAM2LONG: ENHANCING SAM 2 FOR LONGVIDEO SEGMENTATION WITH A TRAINING-FREE MEMORY TREE

1. 介绍

1.1 SAM 2 的成就与局限性

1.2 改进动机

1.3 研究目标

1.4 方法概述

1.5 记忆模块优化

1.6 研究意义

2. 相关工作

2.1 视频目标分割 VOS

2.2 基于记忆的 VOS

2.3 Segment Anything Model (SAM)

3. 方法

3.1 SAM 2 的初步介绍

3.1.1 图像编码器

3.1.2 记忆模块

3.1.3 掩码解码器

3.2 具有不确定性处理的约束性记忆树

3.2.1 约束性记忆树的结构

3.2.2 剪枝策略

3.2.3 最终结果选择 & 计算效率

3.2.4 不确定性处理

3.3 对象感知记忆库构建

3.3.1 记忆帧的选择

3.3.2 记忆注意力调制

4. 实验

4.1 数据集

4.2 主要结果

4.2.1 SAM2Long 对 SAM 2 的改进

4.2.2 SAM2Long 与现有方法的对比

4.2.3 SAM2Long 在处理多样化挑战中的表现

4.3 消融实验 Ablation Study

4.3.1 实验设置

4.3.2 记忆路径数量 P 的影响

4.3.3 IoU 阈值 δ_IoU 的影响

4.3.4 不确定性阈值 δ_conf 的影响

4.3.5 记忆注意力调制 [w_low, w_high] 的影响

4.3.6 主要结论

你可能感兴趣的:(计算机视觉,论文阅读,计算机视觉,机器学习)