深蓝学院

最新模型VMamba：颠覆视觉Transformer，下一代主流Backbone？

论文标题：

VMamba: Visual State Space Model

论文作者：

Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, Yaowei Wang, Qixiang Ye, Yunfan Liu

1. 摘要

卷积神经网络（CNN）与视觉Transformer（ViT）是目前最流行的两种视觉表征基础模型。CNN在线性复杂度下，具有惊人的可扩展性。ViTs在性能方面超过了CNN，但是其具有平方复杂度。经深入分析，ViT具有更加强大性能的原因在于：它利用了全局的感受野和动态的权重分配方法。因此，一种既具有ViT全局感知优势，又具有高计算效率的框架需要被提出。受到状态空间模型启发，我们提出了视觉状态空间模型（VMamba），这个模型能够在不破坏全局感受野的前提下，达到线性的计算复杂度。为了解决模型中的方向敏感性问题，我们引入了交叉扫描模块（CSM）。该模块能够遍历图像空间域，将任意视觉图像转化成有序序列。实验结果表明，所提出的VMamba不仅能够在多种视觉感知任务中具有出色的性能，而且随着图像分辨率的增加，VMamba的优势更加明显。

2. 引言

视觉表征学习是计算机视觉领域中最基础的研究问题之一。从深度学习时代开始，视觉表征学习经历了很多重要突破。其中，CNN与ViT是两类基础的深度学习模型，它们在很多的视觉任务中都有应用。虽然这两类模型在视觉表征方面都取得了非常大的成功，但是总体来说ViT的性能相较于CNN来说更优。这是由于ViT具有全局的感受野以及注意力机制所带来的动态权重分配。

然而，注意力机制随着图像的大小具有平方的算法复杂度。这导致在解决下游稠密预测任务时，例如目标检测、语义分割等，算法具有较大的计算开销，。为了解决这个问题，很多提升注意力机制效率的方法被提出。这些方法虽然通过限制移动图像处理窗口的大小和步长提高了注意力的计算效率，但它们通常都会破坏全局感知的范围。这激励了我们去设计一种新的具有线性复杂度的视觉表征基础模型，同时保持全局感知和动态权重分配的优势。

受到最近提出的状态空间模型启发，我们引入了视觉状态空间模型（VMamba）来进行高效的视觉表征学习。VMamba降低注意力机制复杂度的概念来源于“具有选择性的扫描状态空间序列模型”（Selective Scan Space State Sequential Model ，S6）。S6原来应用于自然语言处理领域，与传统的注意力机制不同，S6使得在序列中的每一个元素能够与任意一个之前扫描过的样本交互。这样使得注意力机制的平方复杂度降低为线性。

然而，由于视觉数据的非因果特性，直接将S6方法应用于分块并展平的视觉图像上会导致全局感受野的损失。这是由于没有经过扫描的图像片间的注意力关联没有被估计。论文中将这一现象称为“方向敏感”问题。为了解决这一问题，论文提出了“交叉扫描模块”（Cross-Scan Module，CSM）。与传统按照行或列遍历的方式不同，CSM采用了“四向”扫描策略，即从图像的四角开始，曲折行进至对角（如下图所示）。这种策略保证了在特征图种的每个元素都能够融合其他位置和方向的元素。因此，这种策略可以使模型在拥有全局感知野的同时，具有线性的计算复杂度。

图1｜Attention机制与所提出的CSM对比©️【深蓝AI】编译

论文在多种视觉任务上开展了详尽的实验来验证所提出VMama的有效性。如图2所示，在ImageNet-1K数据集上，相比于Resnet、ViT以及Swin模型，VMamba具有更强或者至少相当的性能。论文还针对下游稠密任务进行了实验，例如：VMambaTiny/Small/Base (分别有 22/44/75 M 参数)在COCO数据集上，使用MaskRCNN检测器达到了 46.5%/48.2%/48.5%的 mAP，并且在ADE20K数据集上使用UperNet达到了 47.3%/49.5%/50.0%的mIoU。这些结果表明了所提出的VMamba是一个性能很强的基础模型。进一步，当输入图像大小越来越大时，尽管ViT取得了更佳的性能，ViT的FLOP数目的增长速度显著高于CNN。而论文所提出的VMamba与ViT相比，在达到相当性能的同时，其FLOP数目增长更少，为近似线性增长。

图2｜VMamba在ImageNet-1K上整体性能与其他主流算法模型的对比©️【深蓝AI】编译

本次工作的贡献点总结如下：

●VMamba，一种视觉状态空间模型，具有全局感受野与动态权重的视觉表征学习。
VMamba提供了一种视觉基础表征模型的选择，是CNN和ViT的扩展。

●引入了交叉扫描模块（CSM），解决了1维序列扫描到2维图像扫描的迁移过度问题，扩展应用S6模型于视觉数据，并且不破坏全局感受野的特性。

●开展了多种视觉任务实验，包括图像分类、目标检测以及语义分割。实验结果表明了VMamba成为鲁棒视觉表征基础模型的巨大潜力。

3. 相关工作

深度神经网络不断推动这视觉感知研究的发展。其中有两个代表性的视觉基础模型，它们是CNN和ViT。近期，状态空间模型（State Space Models, SSMs）在长序列上提升计算效率的成功吸引了NLP和CV领域的广泛关注。此论文沿着这条路线并提出了VMamba，一种基于状态空间模型的视觉表征模型。VMamba的贡献在于提供了一种除了CNN和ViT之外的可用基础模型。

卷积神经网络（CNN） 是视觉感知领域里程碑式的模型。早期的CNN应用于一些基础的任务，了例如识别手写数字和文字分类。CNN最显著的特点在于卷积核的的设计，卷积核用于获取感受野内的视觉信息。随着GPU的发展以及大规模数据集的兴起，更深且更高效的网络模型被提出，增强了各种视觉任务的表现性能。除此之外，更加先进的卷积算子或者网络结构也被相继提出。

视觉Transformer（ViT） 是从NLP领域改进而来的。其成为了最有前景的视觉基础模型之一。早期的ViT模型一般需要大规模的数据集训练。后来，DeiT使用了模型训练中的技巧以解决优化过程中的问题，越来越多的研究在网络设计中引入了视觉感知的归纳偏置。例如，CV社区提出了多层级ViT来逐渐减少在Backbone中的特征分辨率。此外，其他研究提出把CNN中的一些优势融入进ViT中，例如将卷积算子引入ViT中，在网络结构中结合CNN和ViT模块。

状态空间模型（SSM） 是近期所提出的模型。深度学习引入了SSM作为状态空间转换的方式。受到连续控制系统中状态空间模型的启发，结合HiPPO初始化方法，LSSL模型展示了SSM在解决序列长期依赖问题上的潜力。然而，由于状态表示的计算开销和存储消耗过大，LSSL在实际问题中很难被应用。为了解决这个问题S4模型被提出将参数归一化为对角结构。自此之后，很多不同结构的状态空间模型被提出，例如复数对角结构，支持多输入多输出结构，选择性机制等。这些模型后来融合进了大规模的视觉表征模型。

这些模型主要聚焦于处理长序列与具有因果性的数据上，例如语言理解、像素级别的一维图像分类，很少有研究注意到视觉表征领域。

4. 方法

本项研究涉及的方法主要为VMamba涉及的基础概念和理论，包括状态空间模型、离散化过程以及选择性扫描机制。进而论文介绍了VMamba中的核心元素——二维状态空间模型。最后，论文展示了VMamba的整体架构。

4.1 基础概念

状态空间模型：

状态空间模型通常用来描述时变系统，其将系统输入 $\in \mathbb{R}^L$ 映射至系统响应 $\in \mathbb{R}^L$ 。数学上把状态空间模型描述为如下的微分方程形式：

$\begin{aligned} & h^{\prime}(t)=A h(t)+B x(t) \\ & y(t)=C h(t)+D x(t)\end{aligned}$

其中 $\in \mathbb{C}^{N \times N}, B, C \in \mathbb{C}^N,D \in \mathbb{C}^1$ ， $N$ 为状态空间的变量数目。

微分方程离散化：

对于深度学习来说，所需要的状态转移是离散而非连续的。因此，状态的离散化非常重要，在此我们考虑输入为 $x_k \in \mathbb{R}^{L \times D}$ ，这里指的是具有长度 $L$ 的 $D$ 维信号流。那么上述微分方程可以离散化为如下形式：

$\begin{aligned} h_k & =\bar{A} h_{k-1}+\bar{B} x_k, \\ y_k & =\bar{C} h_k+\bar{D} x_k, \\ \bar{A} & =e^{\Delta A}, \\ \bar{B} & =\left(e^{\Delta A}-I\right) A^{-1} B, \\ \bar{C} & =C\end{aligned}$

其中 $\in \mathbb{R}^{D \times N}, \Delta \in \mathbb{R}^D$ 。实际上，对于 $\bar{B}$ 的计算在实际中通常利用一阶泰勒展开作线性逼近，可近似为如下形式：

$\bar{B}=\left(e^{\Delta A}-I\right) A^{-1} B \approx(\Delta A)(\Delta A)^{-1} \Delta B=\Delta B$

选择性扫描机制：

S6方法中选择性扫描机制指的是在状态转移中的 $\in \mathbb{R}^{B \times L \times N},C \in \mathbb{R}^{B \times L \times N},\Delta \in \mathbb{R}^{B \times L \times D}$ 都来自于输入数据 $\in \mathbb{R}^{B \times L \times D}$ 。这表明了状态空间模型能够利用在输入数据中的上下文信息，保证在机制中的权重一直是动态的。

4.2 二维选择性扫描

在引言和相关工作中，论文已经介绍了S6方法在直接应用在二维图像上的问题——“方向敏感性”问题，会导致全局感受野的信息损失。为解决这一问题，论文提出了2D选择性扫描的方法。其提出的“四向”扫描流程非常直观，即分别从图像分片的左上向右下，左上向右下，左下向右上，右上向坐下四个方向进行扫描，如图1所示。扫描完成后，我们将“四向”扫描的结果进行序列化，接着使用状态空间模型进行选择性扫描，最后恢复融合成一张图像，流程如下图所示。

图3｜二维选择性扫描机制SS2D的流程图©️【深蓝AI】编译

上面所介绍的二维选择性扫描，即CSM模块，就是VMamba中的核心模块。这个模块主要代替了Transformer中的注意力机制，在保留全局感知的情况下保持了线性的计算复杂度。

4.3 VMamba模型

VMamba的Tiny版本整体结构如下所示。其中最为核心的就是VSS Block模块。VSS Block模块所替换的就是Transformer中的Encoder模块。其最大的区别就在于将Attention替换成了SSD二维选择性扫描。

图4｜VMamba-Tiny的网络结构示意图©️【深蓝AI】编译

具体的Tiny/Small/Base网络架构如下表所示：

表1｜VMamba Tiny/Small/Base的具体网络架构设计、参数量以及FLOP数量©️【深蓝AI】编译

5. 实验验证

论文的实验主要针对视觉任务进行开展，分别在ImageNet-1K数据集上进行了图像分类任务，在COCO数据集上进行了目标检测任务，在ADE20K进行了语义分割任务。在此基础上进一步分析了VMamba的优势。

5.1 图像分类任务——ImageNet-1K

在图像分类任务中，VMamba从0开始训练了300个epoch，与其他模型结果对比如下表所示。对比CNN方法，VMamba的准确性更高；对比ViT方法，VMamba在达到更优或者相当的准度性上，所需要的FLOP数量显著减小；对比之前的状态空间模型工作，VMamba的准确性更高。

5.2 目标检测任务——COCO

在图像训练任务中，VMamba在图像分类任务训练的基础上进行了12个和36个epoch的fine-tune。结果如下表所示。对比CNN方法，VMamba的性能更好；对比ViT方法，VMamba在达到更优或者相当的性能上，所需要的FLOP数量显著减小；对比之前的状态空间模型工作，VMamba的性能更好。

5.3 语义分割任务——ADE20K

在语义分割任务中，VMamba在UperHead的预训练模型上进行了fine-tune。结果如下表所示。对比CNN方法，VMamba的性能更好；对比ViT方法，VMamba在达到更优或者相当的性能上，所需要的FLOP数量显著减小；对比之前的状态空间模型工作，VMamba的性能更好。

5.4 实验结果分析

在感受野的有效面积上，如下图所示，VMamba是唯一一个在线性复杂度下可以实现全局感受野的模型。

如下图所示，随着图像分辨率的上升VMamba的性能相较于其他算法模型更优，且增加的FLOP数量更少，计算效率更高。

6. 总结

此论文提出的VMamba主要将状态空间模型引入了图像处理中，在保持全局感受野的情况下，通过CSM的设计替代了Attention机制，降低计算复杂度至线性。实验结果也表明，VMamba有替代ViT成为下一个主流视觉表征模型Backbone的潜力。

编译｜Frank

审核｜Los

移步公众号【深蓝AI】，第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
视觉Transformer还有哪些点可以研究？怎么应用？计算机视觉工坊 3D视觉从入门到精通学习算法开源
0.这篇文章干了啥？今天笔者为大家推荐一篇最新的综述，详细总结了Transformer的网络架构、优化策略、发展方向，还会定期更新Github，研究注意力机制的小伙伴一定不要错过。注意机制有助于人类视觉系统有效地分析和理解复杂场景，它能够聚焦于图像的关键区域，同时忽略无关紧要的部分。受此概念启发，注意机制已经被引入到计算机视觉（CV）中，以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于
Python_day54Inception网络及其思考且慢.589 Python_60 python 开发语言
一、inception网络介绍今天我们介绍inception，也就是GoogleNet传统计算机视觉的发展史从上面的链接，可以看到其实inceptionnet是在resnet之前的，那为什么我今天才说呢？因为他要引出我们后面的特征融合和特征并行处理这些思想。Inception网络，也被称为GoogLeNet，是Google团队在2014年提出的经典卷积神经网络架构。它的核心设计理念是“并行的多尺度
《目标法则》：如何找到你的明确首要目标？女朱姝涵
我们每个人都想找到自己最终要确定的目标，但是很多人终其一生都在寻找中，都没有找到自己最需要的目标。在一本书中，结合成功学之父拿破仑•希尔里面的理念，可以助力你找到自己最终的目标。该书就是《目标法则—大师的积极思维课》。作者是米奇•霍洛维茨，作家，企鹅出版社编辑，著有《隐秘美国》《神奇俱乐部》等获奖图书。是很多时报的专栏作家，更是CNN，哥伦比亚广播等有声书讲师，一生在研究拿破仑•希尔的思想。什么是
AI 绘画 + 编程：10 分钟生成个性化艺术作品大力出奇迹985 人工智能
本文围绕Python+OpenCV实现自动人脸识别门禁系统展开，先概述系统的基本构成与作用，再从系统核心技术、开发实现步骤、功能扩展方向、实际应用场景及优化改进策略五个方面详细阐述，最后总结系统的价值与发展前景，为相关开发和应用提供全面参考。一、系统核心技术解析人脸识别技术是门禁系统的核心，其关键在于对人脸特征的精准提取与匹配。OpenCV作为开源计算机视觉库，提供了丰富的人脸检测算法，如Haar
【AI大模型：前沿】43、Mamba架构深度解析：为什么它是Transformer最强挑战者？无心水架构 transformer Mamba Mamba架构 AI大模型系统开发实战 AI大模型高手开发 AI大模型系统实战
Transformer架构自2017年诞生以来，一直是NLP、计算机视觉等领域的“统治级”模型架构。但随着序列长度需求的增长（如128K长文本处理、基因组学超长序列分析），其自注意力机制的O(n2)O(n^2)O(n2)计算复杂度成为难以逾越的瓶颈。2023年底，由AlbertGu和TriDao等人提出的Mamba架构，通过创新的“选择性状态空间模型（SelectiveSSM）”实现了线性复杂度（
【YOLO系列】YOLOv1详解：模型结构、损失函数、训练方法及代码实现一碗白开水一 yolo系列助你拿捏AI算法 YOLO 人工智能目标检测计算机视觉
YOLOv1（YouOnlyLookOnce）：实时目标检测的革命性突破✨motivation在目标检测领域，传统方法如R-CNN系列存在计算冗余、推理速度慢的问题。2016年提出的YOLO（YouOnlyLookOnce）首次实现端到端单阶段检测，将检测速度提升至45FPS（FasterR-CNN仅7FPS），彻底改变了实时目标检测的格局。其核心思想是将检测视为回归问题，实现"看一眼即知全貌"的
《揭秘AI应用架构师在智能虚拟人设计系统中的创新思维》 SuperAGI架构师的AI实验室人工智能 ai
揭秘AI应用架构师在智能虚拟人设计系统中的创新思维关键词：AI应用架构师、智能虚拟人、系统设计、创新思维、自然语言处理、计算机视觉、实时交互摘要：智能虚拟人已从科幻走进现实，无论是直播间的虚拟主播、手机里的智能助手，还是元宇宙中的数字分身，它们背后都离不开AI应用架构师的“隐形设计”。本文将以“总设计师视角”，用生活化的比喻和实例，拆解AI应用架构师在智能虚拟人系统设计中的创新思维——从“让虚拟人
AI人工智能为空间智能领域带来的科技革新 AI云原生与云计算技术学院 AI云原生与云计算人工智能科技 ai
AI人工智能为空间智能领域带来的科技革新关键词：人工智能、空间智能、计算机视觉、SLAM、空间计算、增强现实、自动驾驶摘要：本文将深入探讨人工智能如何革新空间智能领域。我们将从基本概念出发，逐步分析AI在空间感知、理解和交互方面的突破性进展，包括SLAM技术、3D重建、空间计算等核心应用。通过生动的比喻和实际案例，揭示AI如何赋予机器"空间思维"能力，并展望这一技术融合的未来发展趋势。背景介绍目的
基于深度学习的图像分类：使用ShuffleNet实现高效分类 Blossom.118 机器学习与人工智能深度学习分类人工智能机器学习数据挖掘 python 目标检测
前言图像分类是计算机视觉领域中的一个基础任务，其目标是将输入的图像分配到预定义的类别中。近年来，深度学习技术，尤其是卷积神经网络（CNN），在图像分类任务中取得了显著的进展。ShuffleNet是一种轻量级的深度学习架构，专为移动和嵌入式设备设计，能够在保持较高分类精度的同时，显著减少计算量和模型大小。本文将详细介绍如何使用ShuffleNet实现高效的图像分类，从理论基础到代码实现，带你一步步掌
《零基础入门AI：从图像梯度到凸包特征检测（OpenCV图像特征提取）》竹子_23 OpenCV入门 opencv 人工智能计算机视觉
一、图像梯度处理：理解像素变化的本质1.1图像梯度基础图像梯度是计算机视觉中的核心概念，它描述了图像中像素强度的变化情况：梯度方向：像素值变化最剧烈的方向（垂直于边缘）梯度幅度：像素值变化的强度（值越大表示边缘越明显）物理意义：就像地形图中的等高线，梯度大的地方相当于陡坡，梯度小的地方相当于平地1.2垂直边缘提取垂直边缘是图像中物体左右边界形成的线条：特征：水平方向上像素值发生突变应用场景：文档扫
OpenCV基础02_图像预处理白槿_cha 计算机视觉基础 opencv 人工智能计算机视觉笔记
图像预处理在计算机视觉和图像处理领域，图像预处理是一个重要的步骤，它能够提高后续处理（如特征提取、目标检测等）的准确性和效率。OpenCV提供了许多图像预处理的函数和方法，一些常见的图像预处理操作：图像色彩空间转换图像大小调整图像仿射变换图像翻转图像裁剪图像二值化处理图像去噪边缘检测图像平滑处理图像形态学一、图像翻转cv2.flip是OpenCV库中的一个函数，用于翻转图像。翻转可以是水平翻转、垂
电表箱识别漏检率高？陌讯算法实测降 90%
在电力巡检领域，电表箱状态识别一直是计算机视觉技术落地的难点。传统人工巡检模式下，一个台区的200个电表箱需2名巡检员耗时1天完成，且受光线、天气影响，误判率常超过15%。而采用普通开源算法部署的自动识别系统，又面临箱体污渍遮挡、表计型号混杂、边缘计算设备算力有限等多重挑战，实际商用时mAP（平均精度）往往跌破70%，难以满足电力行业的可靠性要求技术解析：从传统方法到陌讯创新架构传统电表箱识别多采
实时检测延迟超200ms？陌讯新框架FPS提速50%揭晓 2501_92474779 目标跟踪人工智能计算机视觉机器学习算法视觉检测
开篇痛点在现代安防监控场景中，实时目标检测（Real-timeObjectDetection）至关重要，但传统算法如FasterR-CNN或YOLOv5往往面临严峻挑战。实测数据显示：复杂环境下（如夜间低光照、人群密集区），漏检率（MissRate）高达15-20%，导致安全隐患；同时，检测延迟（Latency）常超过200ms，影响应急响应。例如，某城市交通监控系统报告，在雨雾天气中的车辆误报率
以AI人工智能为核心，发展空间智能 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
以AI人工智能为核心，发展空间智能关键词：人工智能、空间智能、智能系统、机器学习、计算机视觉、物联网、自动化技术摘要：本文围绕"以AI人工智能为核心发展空间智能"这一主题，系统解析空间智能的技术架构与实现路径。通过揭示AI与空间智能的核心关联，深入探讨机器学习、计算机视觉、数字孪生等关键技术如何赋能空间数据的感知、处理与决策。结合智能建筑、智慧城市等实际场景，展示从算法原理到工程落地的完整技术链条
探索未来标注新纪元：AutoLabelImg 多功能自动标注工具徐耘馨
探索未来标注新纪元：AutoLabelImg多功能自动标注工具在计算机视觉领域，高质量的数据标注是模型训练的关键一步，而AutoLabelImg正是这样一个旨在提升效率的开源标注工具。它不仅继承了著名的labelImg的基础特性，还创新性地加入了多种高级功能，为开发者和研究人员提供了一个全新的标注体验。项目简介AutoLabelImg是一款强大的图像和视频标注工具，集成了自动化标注、追踪标注、放大
MATLAB实现基于GA-CNN-BiLSTM-Attention遗传算法（GA）优化卷积双向长短期记忆神经网络融合注意力机制进行多变量时序预测的详细项目实例（含模型描述及示例代码） nantangyuxi MATLAB 含模型描述及示例代码神经网络 matlab cnn 支持向量机人工智能大数据深度学习
目录MATLAB实现基于GA-CNN-BiLSTM-Attention遗传算法（GA）优化卷积双向长短期记忆神经网络融合注意力机制进行多变量时序预测的详细项目实例...2项目背景介绍...2项目目标与意义...31.提高多变量时序预测的准确性...32.弥补传统方法的局限性...33.提高模型训练效率...3
GWO-CNN-BiLSTM-Attention多变量多步时间序列预测 | Matlab实现灰狼算法优化卷积双向长短期记忆融合注意力机制
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍摘要:时间序列预测在各个领域具有广泛的应用，而多变量多步时间序列预测由于其复杂性和挑战性，一直是研究热点。本文提出了一种基于灰狼算法(GreyWolfOptimizer,GWO)优化的卷积神经网络(Conv
14、基于无人机与CNN技术的森林研究：原木识别与冠层空隙分析 Sunny 计算科学前沿：ICCSA 2021精选无人机 CNN 原木识别
基于无人机与CNN技术的森林研究：原木识别与冠层空隙分析基于CNN的原木识别研究近年来，基于单根原木追踪圆木的方法备受关注。此前的研究提出了一种基于原木端面图像的物理自由方法，借鉴了指纹和虹膜识别的技术，在使用真实分割数据时取得了不错的效果。但在实际应用中，需要一个完全自动化的系统。为了填补这一空白，研究采用了基于卷积神经网络（CNN）的分割方法与原木识别方法相结合的方式，并与传统原木识别方法在自
无人机正摄影像自动识别与矢量提取系统 pk_xz123456 算法 python 无人机算法数据挖掘深度学习网络媒体
无人机正摄影像自动识别与矢量提取系统1.项目概述本项目旨在开发一个基于Python的自动化系统，能够从TIFF格式的无人机正摄影像中识别并提取多种地物要素，包括水边线、道路、桥梁、植被图斑、房屋、趸船和护岸。系统将采用深度学习与计算机视觉技术相结合的方法，实现高精度（95%以上）的自动识别，并将结果以带有相同坐标信息的矢量DWG/DXF格式保存。2.系统架构设计2.1总体架构系统采用模块化设计，主
AI人工智能加持，人脸识别精准度飙升 AI大模型应用工坊人工智能 ai
AI人工智能加持，人脸识别精准度飙升：从模糊到清晰的技术革命关键词人脸识别、深度学习、神经网络、精准度优化、计算机视觉、特征提取、面部识别算法摘要想象一下，在一个拥挤的火车站，系统能在瞬间从数千人中准确识别出需要关注的个体；或者你的手机仅通过一瞥就能认出你，甚至在你戴着口罩时也能做到。这不是科幻电影的场景，而是当下AI驱动的人脸识别技术的真实能力。本文将深入探讨人工智能如何彻底改变人脸识别领域，从
opencv-day2-图像预处理1 谢眠 OpenCV opencv 计算机视觉
图像预处理在计算机视觉和图像处理领域，图像预处理能够提高后续处理（如特征提取、目标检测等）的准确性和效率。常见的图像预处理操作：图像色彩空间转换图像大小调整图像仿射变换图像翻转图像裁剪图像二值化处理图像去噪边缘检测图像平滑处理图像形态学图像翻转cv2.flip是OpenCV库中的一个函数，用于翻转图像。翻转可以是水平翻转、垂直翻转或同时水平和垂直翻转。这个函数接受两个参数：要翻转的图像和一个指定翻
使用PyTorch实现目标检测与跟踪认真写代码i pytorch 目标检测人工智能 Python
目标检测与跟踪是计算机视觉领域中的重要任务，它可以帮助我们在图像或视频中准确地定位和跟踪特定物体。PyTorch是一个流行的深度学习框架，提供了强大的工具和库，可以用于目标检测与跟踪的实现。本文将详细介绍如何使用PyTorch实现目标检测与跟踪，并提供相应的源代码。安装PyTorch和相关依赖首先，我们需要安装PyTorch和其他必要的依赖项。你可以通过以下命令使用pip安装PyTorch：pip
基于孪生网络 (Siamese Network) 的人脸识别系统 DeniuHe Pytorch pytorch
上一个帖子记录了基于普通CNN的人脸识别系统。但是，测试准确率实在太低了只有30%。这次使用孪生网络（SiameseNet）进行实现。代码实现使用了VGG19预训练模型作为特征提取器，通过对比学习来判断两张人脸图像是否属于同一人。整个代码分为数据准备、模型构建、训练和测试四个主要部分。importmatplotlib.pyplotaspltimporttorchfromtorchimportnnf
计算机视觉算法实现——汽车漆面缺陷检测
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.领域介绍：工业质检的革命性突破1.1传统检测方法痛点分析汽车漆面作为车身的第一道防护层，其质量直接影响整车耐腐蚀性和美观度。传统检测依赖质检员目视检查（VT检测），存在三大核心问题：效率瓶颈：经验丰富的质检员完成单台整车检测需15-20分钟（数据来源：丰田2021年质检报告）主观偏
工业缺陷检测的计算机视觉方法总结思绪漂移计算机视觉人工智能缺陷检测
工业缺陷检测的计算机视觉方法总结传统方法特征提取方式：颜色：基于HSV/RGB空间分析，如颜色直方图、颜色矩等纹理：采用LBP、Haar、Gabor滤波器等算子提取纹理模式形状：基于Hu矩、Zernike矩等数学描述符刻画几何特性尺寸：通过连通域分析计算物体像素面积、周长等参数典型处理流程：手动设计特征提取算法建立规则分类器（如SVM、决策树）基于阈值分割目标区域深度学习方法核心特点：端到端学习：
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><