爱听歌的周童鞋

八. 实战：CUDA-BEVFusion部署分析-学习spconv的优化方案(Implicit GEMM conv)

前言

自动驾驶之心推出的《CUDA与TensorRT部署实战课程》，链接。记录下个人学习笔记，仅供自己参考

本次课程我们来学习下课程第八章——实战：CUDA-BEVFusion部署分析，一起来学习 spconv 的优化方案（Implicit GEMM conv）

Note：之前在学习杜老师的课程中有简单记录过 Sparse Convolution 的一些基础知识，感兴趣的可以看下：复杂onnx解决方案（以sparseconv为例）

课程大纲可以看下面的思维导图

0. 简述

本小节目标：理解 Implicit GEMM Conv 与 Explicit GEMM Conv 的区别，跳过 im2col 计算索引的方法，以及与 spconv 的关联性

这节给大家讲解第八章节第 5 小节，学习 spconv 的优化方案，那这一小节我们从 Implicit GEMM Conv 隐式 GEMM Conv 方式去看 spconv 是怎么加速的

1. 什么是Implicit GEMM Conv

首先我们回顾一下上节课讲的 Explicit GEMM Conv，在实现显式的 GEMM Conv 过程中我们需要做 im2col，而 im2col 会分配额外的空间，这一部分会造成一定的 overhead。但是我们回顾下之前讲的课程知道其实对于 n 维的 tensor 它都可以转化成一个二维的 Matrix，那这也就意味着二维 Matrix 上的每个点它其实都是能够通过计算的方式得到这个点到底是 tensor 中的哪一个数据，也就是说存在下面的对应关系：

$\text{input}(cin, ih, iw)$
$\text{weight}(cout,cin,kh,kw)$
$\text{output}(cout,oh,ow)$

换句话说，即便不做 im2col，只要知道这个对应关系，也就是索引，我们就可以把

$\text{input}(cin,ih,iw) * \text{weight}(cout,cin,kh,kw)=\text{output}(cout,oh,ow)$

转换成

$M(i,j)\times N(k,j)=P(i,j)$

从而避免 im2col 的额外开销，预先把数据按照索引把数据从 global memory 放到 shared memory 中做 warp 级别的加速，结合 cutlass 可以在 Tensor Core 上高速实现 GEMM 计算，这就是 Implicit GEMM Conv 的一个优势。

如上图所示，Explicit GEMM Conv 会有 im2col 矩阵变化这么一个操作，但是 Implicit GEMM Conv 把这个过程给 skip 掉了

那我们简单讲了 Implicit GEMM Conv 隐式计算，Implicit GEMM Conv 的关键点是如何找到这个 n 维 tensor 和 2D matrix 的对应关系，这里大家可以稍微思考一下，这个转换比较有意思。比如以 input 这个 Tensor 为例，我们要找的就是 $c in, ih, i w$ 和 $i, k$ 之间的对应关系，这个是我们需要计算的一个东西，大家可以自己拿笔算一下这个是怎么转换的。

2. Explicit GEMM Conv

我们先来回顾一下 Explicit GEMM Conv，整个过程如下图所示：

图中绿色矩阵部分是 input 转换过来的，我们记作 $N$ ，蓝色矩阵部分是 filter 转换过来的，我们记作 $M$ ，红色矩阵部分则是 output 转换过来的，我们记作 $P$ 。

那如果说我们有了这个对应关系之后，我们可以手动实现一个 ExplicitGEMMConv 在 im2col 之后的计算，代码如下所示：

void im2colOnHost(
    float* filter, float* input, float* output,
    float* M, float* N, float* P,
    int IC, int IH, int IW,
    int KH, int KW,
    int OC, int OH, int OW)
{
    // 大家感兴趣的可以实现一下
}

void ExplicitGEMMConvOnHost(
    float* filter, float* input, float* output,
    int IC, int IH, int IW,
    int KH, int KW,
    int OC, int OH, int OW)
{
    float* M = (float*)malloc(OC * IC * KH * KW * sizeof(float));
    float* N = (float*)malloc(OH * OW * IC * KH * KW * sizeof(float));
    float* P = (float*)malloc(OC * OH * OW * sizeof(float));

    im2colOnHost(
        filter, input, output,
        M, N, P,
        IC, IH, IW,
        KH, KW,
        OC, OH, OW);
    
    for (int i = 0; i < OC; i++){
        for (int j = 0; j < OH * OW; j++){
            float sum = 0;
            for (int k = 0; k < IC * KH * KW; k++){
                float a = M[i * IC * KH * KW + k];
                float b = N[k * OH * OW + j];
                sum += a * b;
            }
            P[i * OC + j] = sum;
        }
    }
}

首先 ExplicitGEMMConvOnHost 函数传入的是 input、filte、output 三个参数以及它们对应的各个维度值，然后我们把他们转换成矩阵，然后计算，最后把结果写回 output。

首先我们需要分配各个 tensor 所对应的二维矩阵的空间，分配之后我们开始执行 im2colOnHost 这个函数，大家感兴趣的可以自己实现一下，那实现 im2col 之后我们就得到了各个 tensor 所对应的矩阵，那么我们去遍历每一个元素再按照维度进行一个乘加运算填充到输出矩阵 $P$ 中即可，那这就是 Explicit GEMM Conv 的一个计算过程。

3. Implicit GEMM Conv

下面我们来看 Implicit GEMM Conv 的计算过程，我们先规定下：

input, filter, output 是 $n$ 维的 tensor
$N$ ， $M$ ， $P$ 是 2 维的 matrix
$N$ ， $M$ ， $P$ 分别是 input，filter，output 通过 im2col 得到的 matrix
$I C$ ， $I H$ ， $I W$ 是 input 的 $c$ ， $h$ ， $w$ 的大小
$KH$ ， $K W$ 是 kernel 的 $h$ ， $w$ 的大小
$OC$ ， $O H$ ， $O W$ 是 output 的 $c$ ， $h$ ， $w$ 的大小
$i c$ ， $ih$ ， $i w$ 分别是 input 的 $c$ ， $h$ ， $w$ 上的索引
$kh$ ， $k w$ 分别是 kernel 的 $h$ ， $w$ 上的索引
$oc$ ， $o h$ ， $o w$ 分别是 output 在 $c$ ， $h$ ， $w$ 上的索引
$i$ 是 $P$ 和 $M$ 在 $y$ 方向的索引
$j$ 是 $P$ 和 $N$ 在 $x$ 方向的索引
$k$ 是 $M$ 在 $x$ 方向， $N$ 在 $y$ 方向的索引

那么对于 $P$ 和 output，我们可以得到如下关系：

$\color{#A20025}oc = i$
$\color{#A20025}oh = j/OW$
$\color{#A20025}ow = j\%OW$

可以得到 $\color{#A20025}P(i,j)=\text{output}(oc,oh,ow)$

对于 $M$ 和 filter，我们可以得到如下关系：

$\color{#1BA1E2}ic = k / (KH * KW)$
$\color{#1BA1E2}kh = (k\%(KH * KW))/ KW$
$\color{#1BA1E2}kw = (k\%(KH * KW))\% KW$
$\color{#1BA1E2}oc = i$

可以得到 $\color{#1BA1E2}M(i,k)=\text{filter}(oc,ic,kh,kw)$

对于 $N$ 和 input，我们可以得到如下关系：

$\color{#60A917}ic = k/(KH * KW)$
$\color{#60A917}ih = oh+kh=j/OW+(k\%(KH * KW))/ KW$
$\color{#60A917}iw = ow+kw=j\%OW+(k\%(KH * KW))\% KW$

可以得到 $\color{#60A917}N(k,j)=\text{input}(ic,ih,iw)$

那有了上述关系之后，我们就可以利用这个关系修改一下我们的程序，如下所示：

void ImplicitGEMMConvOnHost(
    float* filter, float* input, float* output,
    int IC, int IH, int IW,
    int KH, int KW,
    int OC, int OH, int OW)
{   
    for (int i = 0; i < OC; i++){
        for (int j = 0; j < OH * OW; j++){
            int oh = j / OW;
            int ow = j % OW;
            int oc = i;
            int output_index = oc * OH * OW + oh * OW + ow;
            float sum = 0;
            for (int k = 0; k < IC * KH * KW; k++){
                int ic = k / (KH * KW);
                int kh = (k % (KH * KW)) / KW;
                int kw = (k % (KH * KW)) % KW;
                int ih = oh + kh;
                int iw = ow + kw;

                int filter_index = oc * IC * KH * KW + \
                    ic * KH  * KW + kh * KW + kw;
                int input_index = ic * IH * IW + ih * IW + iw;
                sum += filter[filter_index] + input[input_index];
            }
            output[output_index] = sum;
        }
    }
}

可以看到 ImplicitGEMMConvOnHost 函数的输入参数和 ExplicitGEMMConvOnHost 一样，但是少了 im2col 的步骤，我们直接通过这些索引来访问 input、filter、output 的数据，然后进行计算即可。整个过程也省去了额外空间的分配，这个就是隐式 GEMM Conv 的计算方式。

那么我们来对比下 Explicit GEMM Conv 和 Implicit GEMM Conv 的代码实现，如下图所示：

左边是 Explicit 的实现，右边是 Implicit 的实现，可以看到 Explicit 多了 im2col 这个部分，那这个其实开销还是比较大的，而 Implicit 看着就比较简单。

4. Implicit GEMM Conv优化

在 Implicit GEMM Conv 的代码中我们可以看到它其实还是串行执行的，也就是三个 for 循环，上面的代码仅仅是 CPU 上的一个模拟 ImplicitGemmConv 的实现，要在 GPU 上跑的话，需要把这个程序加速，比如说：

使用 tilling
结合硬件合理调整 grid size 和 block size
warp GEMM 加速
使用 shared memory
更改 shared memory 上的 data layout 来避免 bank conflict
更改 global memory 上的 data layout 来实现合并访存
预处理偏移量来删除除法和求余
通过 wmma 调用 Tensor Core
使用 CUTLASS
- CUTLASS 是 NVIDIA 推出的针对矩阵乘法的模板库，里面有很多针对矩阵乘法优化的 C++ 模板库，可以自定义高效算子
…

值得注意的是使用 CUTLASS 优化要展开讲的话会有太多的内容，目前我们只要知道 Implicit GEMM Conv 的基本思路就好，大家感兴趣的可以读一下 CUDA 的官方文档

5. spconv和Implicit GEMM Conv

OK，我们讲了这么多的 Implicit GEMM Conv，我们思考下 Implicit GEMM Conv 它跟 spconv 又有什么关联性呢？我们回顾一下稀疏点云 spconv 的处理的话，我们可以发现 spconv 的方案与 Implicit GEMM Conv 有一定的类似度，两者都是通过索引来寻找需要计算的数据，那么是否可以将 spconv 中的 rulebook 里各类 atomic operation 的数据通过类似于 LUT（Look up table）的方式保存起来后传递给 Implicit GEMM Conv 来做计算呢？这肯定是可以的

Implicit GEMM Conv

spconv的设计思路

traveller59 的 spconv 也有使用 Implicit GEMM Conv 的方法，感兴趣的可以看下：https://github.com/traveller59/spconv/blob/master/example/libspconv/main.cu

CUTLASS 也提供了有关 Implicit GEMM Conv 的模版函数，方便我们自定义很多优化方案，自由度比较高。大家感兴趣的可以看下 https://github.com/NVIDIA/cutlass/blob/main/media/docs/implicit_gemm_convolution.md，里面有很多优化思路可以参考。上手难度比较高，需要有一定的优化背景。如果这篇文档里面的优化方式大家能看懂，说明前面几章内容学得很扎实，如果看不懂大家可以在搜集下相关资料来理解

一般来说 CUTLASS 的编程会比 CUBLAS 要难，因为它自由度较高，我们需要非常理解 CUDA 编程中的一些优化策略才能把 CUTLASS 写好，要不然写起来会比较困难

OK，关于 Implicit GEMM Conv 和 spconv 的关系我们就讲到这里，下一小节我们将会为大家讲解 BEVFusion 另一个核心的地方—BEVPool

总结

这节课程我们学习了 Implicit GEMM Conv，相比于 Explicit GEMM Conv 而言，隐式的 GEMM Conv 去除了 im2col 的操作利用索引的方式去计算，之后我们简单了解了 Implicit GEMM Conv 在 GPU 上的一些优化方式以及它与 spconv 之间的关系，我们可以将 spconv 中的 rulebook 里各类 atomic operation 的数据通过类似于 LUT（Look up table）的方式保存起来后传递给 Implicit GEMM Conv 来做计算从而实现加速
OK，以上就是第 5 小节有关 Implicit GEMM conv 优化方案的全部内容了，下节我们将去学习 BEVPool 的优化方案，敬请期待

下载链接

论文下载链接【提取码：6463】
数据集下载链接【提取码：data】
代码和安装包下载链接【提取码：cuda】

参考

复杂onnx解决方案（以sparseconv为例）
https://github.com/traveller59/spconv/blob/master/example/libspconv/main.cu
https://github.com/NVIDIA/cutlass/blob/main/media/docs/implicit_gemm_convolution.md

md5加密落地成佛
using(MD5md5=MD5.Create()){byte[]byteHash=md5.ComputeHash(System.Text.Encoding.Default.GetBytes(s));stringstrRes=BitConverter.ToString(byteHash).Replace("-","");returnstrRes.ToUpper();}
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
金融科技中的远程开户、海外个人客户在线开户、企业客户远程开户练习两年半的工程师金融科技金融科技
远程开户（RemoteAccountOpening）1.传统开户流程的问题传统银行开户，需要面对面访谈（face-to-faceinterviews），且必须去银行网点（atbanks’branches）。这对一些客户来说很不方便（inconveniencetocertaincustomers），比如没时间去网点、距离网点远的人。2.监管科技的两步验证方案（Regtechsolutions）为了解
C++ explicit 上下文相关转换我是李武涯 c++
在C++中，“上下文相关转换”(Context-SensitiveConversion)通常指的是那些行为或有效性取决于其使用环境的类型转换。这主要通过用户定义的转换以及explicit关键字来实现，它限制了隐式转换的发生，使得转换只能在特定的语法上下文中进行。从更广泛的计算机科学理论角度来看，C++语言本身的语法分析就是上下文相关的[1][2]。这意味着解析器需要了解上下文（例如，一个标识符是否
【OpenCV基础】凸包检测、Harris角点检测、Canny边缘检测
：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】：文章若有幸对你有帮助，可点赞收藏⭐不迷路：内容若有错误，敬请留言指正！原创文，转载请注明出处文章目录一、凸包检测API1.drawContours2.convexHull全部代码-有滑动条效果展示部分代码-无滑动条二、Harris角点检测角
GWO-CNN-BiLSTM-Attention多变量多步时间序列预测 | Matlab实现灰狼算法优化卷积双向长短期记忆融合注意力机制
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍摘要:时间序列预测在各个领域具有广泛的应用，而多变量多步时间序列预测由于其复杂性和挑战性，一直是研究热点。本文提出了一种基于灰狼算法(GreyWolfOptimizer,GWO)优化的卷积神经网络(Conv
tablespace Encryption Convert Default 表空间加密数据文件并行加密 jnrjian 数据库 sql
三个命令一样，其实加密就是加密的datafile头CREATETABLESPACEtps_secENCRYPTIONDEFAULTSTORAGE(ENCRYPT);createtablespacetestencryptionusing'AES256'DEFAULTSTORAGE(ENCRYPT);createtablespacetestencryptionusing'AES256'ENCRYPT;
leetcode 504. Base 7
取余，然后翻转。classSolution{publicStringconvertToBase7(intnum){if(num==0){return"0";}Stringstr="";if(num0){sb.append(num%7);num/=7;}returnstr+sb.reverse().toString();}}
Leetcode 504. Base 7 小白菜又菜 Leetcode 解题报告 leetcode 算法职场和发展
ProblemGivenanintegernum,returnastringofitsbase7representation.AlgorithmDistinguishbetweenpositiveandnegativevalues,thenstoretheremaindersinreverseorderafterdividingby7.CodeclassSolution:defconvertToB
解决flutter attach Bad UTF-8 encoding 青年别来无恙
问题DKFlutterModuleSalegit:(Dev1.0.1)✗flutterattachCheckingforadvertisedDartobservatories...Unhandledexception:FormatException:BadUTF-8encoding0xc(atoffset22)#0_Utf8Decoder.convert(dart:convert/utf.dart
【北上广深杭大厂AI算法面试题】人工智能大模型篇...矩阵乘法GEMM！以及为什么说GEMM是深度学习的核心？不想努力的小土博机器学习基础算法优质笔记2 人工智能算法矩阵深度学习线性代数
【北上广深杭大厂AI算法面试题】人工智能大模型篇…矩阵乘法GEMM！以及为什么说GEMM是深度学习的核心？【北上广深杭大厂AI算法面试题】人工智能大模型篇…矩阵乘法GEMM！以及为什么说GEMM是深度学习的核心？文章目录【北上广深杭大厂AI算法面试题】人工智能大模型篇...矩阵乘法GEMM！以及为什么说GEMM是深度学习的核心？前言DeepGEMM的亮点DeepGEMM的应用GEMM在深度学习中的
基于深度学习的胸部 X 光图像肺炎分类系统（二）
本文主要说明神经网络的构建，共21个层级defbuild_model(input_shape): model=models.Sequential([ layers.Conv2D(32,(3,3),activation='relu',input_shape=input_shape), layers.BatchNormalization(), layers.Ma
Complete Guide to Integrating Live Chat Support on Your Website adminwolf 个人开发
Integratinglivechatfunctionalityintoyourwebsiteisapowerfulwaytoenhanceuserexperienceanddrivebusinessconversions.Thisguideprovidesstep-by-stepinstructionsonhowtoseamlesslyembedanonlineconsultationfeatu
Professional Online Customer Support Solutions: Elevating Satisfaction and Conversions with LiveChat
Intoday’sdigitalmarketplace,wherecustomerexpectationsevolveatlightningspeed,thequalityofonlinesupportcanmakeorbreakabusiness.Consumersnolongertoleratelongwaittimesforemailrepliesornavigatingendlesspho
【论文精读】AGCRN-自适应图卷积循环神经网络打酱油的葫芦娃时序预测算法时空预测 GCN GRU AGCRN 交通预测
AGCRN模型是新南威尔士大学和悉尼科技大学的Bai等人发表在NeurIPS2020NeurIPS2020NeurIPS2020会议上的自适应图卷积循环神经网络，论文题目为:《AdaptiveGraphConvolutionalRecurrentNetworkforTrafficForecasting》，文章地址为:
C#入门实战：数字计算与条件判断无规则ai C#c#visual studio
1.用c#语言实现简单的俩个数字相加的功能通过convert来实现数据类型的转换usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;namespace_04{internalclassProgram{staticvoidMain(strin
golang的基本数据类型转string，string转基本数据类型澡点睡觉 golang 后端
基本数据类型转string方法一fmt.Sprintf(“%参数”,表达式)以int8类型转string为例：funcmain(){varnint8=2varb=fmt.Sprintf(“%d”,n)fmt.Printf(“%T,%v”,b,b)}输出结果为:string,2方法二调用strconv包的函数funcmain(){varaint8=2varc=strconv.FormatInt(in
PTE FIB-RW 完形填空-03 Fine姐英语备考笔记学习
PTEFIB-RW完形填空-0323#388ShrimpFarm在过去的20年里，世界上大约三分之一的红树林沼泽（mangroveswamps）被改造成【havebeenconvertedfor】供人类使用，其中许多变成了有价值的养虾场（turnedintovaluableshrimpfarms）。2007年，一项对泰国此类养虾场的经济研究显示，每公顷的商业利润为9632美元。如果这是唯一的因素【
YOLO11优化：卷积魔改创新 | AAAI 2025 | 一种新颖的风车形卷积（PConv）符合微弱小目标的像素高斯空间分布，增强特征提取，显著增加接受野芯作者 D2:YOLO 人工智能 YOLO 深度学习人工智能计算机视觉
针对微弱小目标检测的世界性难题，AAAI2025最新研究提出革命性的风车形卷积(PConv)，显著提升特征提取能力与感受野，让小目标无所遁形！引言：小目标检测的挑战与突破在计算机视觉领域，小目标检测一直是极具挑战性的任务。传统卷积神经网络在处理微小物体时往往表现不佳，主要原因有二：有限的特征表达能力和不足的感受野范围。当目标尺寸小于32×32像素时，检测精度会急剧下降。近期在AAAI2025上发表
CoolUtils Total PDF Converter：多功能PDF转换专家东风西巷 pdf
在数字办公时代，PDF文件因其跨平台兼容性和格式稳定性而被广泛使用。然而，有时我们可能需要将PDF文件转换为其他格式，以便进行编辑、分享或进一步处理。CoolUtilsTotalPDFConverter正是一款能够满足这些需求的多功能PDF转换工具。它不仅支持将PDF文件转换为多种常见格式，还提供了便捷的操作流程和高质量的转换效果，让PDF文件的转换变得轻松又高效。一、支持多种格式转换（一）转换为
在 Windows 10 或 11 上使用开源 File Converter 转换文件
如今的电脑功能强大，我们可以借助这些设备完成许多任务。但为了兼容旧版本和其他原因，我们有时仍需将文件从一种格式转换为另一种格式。许多网站或应用程序可能不支持特定的图像格式，遇到这种情况，唯一的方法就是将图像文件从一种格式转换为另一种格式，比如从JPEG转换为PNG或反之。这不仅适用于图像文件，我们在处理视频文件，甚至像电子表格、演示文稿、文档或便携式文档格式（即PDF）等文件时，也可能遇到类似的情
前后端AES加解密，java使用CipherOutputStream加密输出时，前端分段解密方案 running17 前端 javascript 安全
如果java输出的数据是使用CipherOutputStream按1024（假设）个字节加密输出的，那么如果前端也必须按照1024个字节分段进行解密，不然将会解密失败，以下是前端的具体解密逻辑：前端依赖：详细逻辑：convertWordArrayToUint8Array为将CryptoJs解密后的wordArray对象转化为保存文件可用的Uint8Array的字节流对象，下方会使用到functio
goframe框架中获取url内容并转成Base64字符串大叔是90后大叔 go go
goframe框架中获取url内容并转成Base64字符串packagetoolsimport("context""encoding/base64""github.com/gogf/gf/v2/frame/g")funcConvertUrlContentToBase64String(urlStrstring)(base64StrContentstring,errerror){ctx:=contex
AI Agent开发学习系列 - langchain之memory(1)：内存中的短时记忆 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
内存中的短时记忆，在LangChain中通常指ConversationBufferMemory这类“对话缓冲记忆”工具。它的作用是：在内存中保存最近的对话历史，让大模型能理解上下文，实现连续对话。对话缓冲记忆”工具主要特点只保留最近的对话内容（如最近N轮），不会无限增长，节省内存和token。适合短对话、上下文关联不深的场景。支持多种变体，如窗口记忆（ConversationBufferWindo
Java注解家族--`@ResponseBody`
@ResponseBody@ResponseBody是Spring框架中的一个注解，在基于Spring的Web开发中扮演着重要角色，以下是对它的详细总结：1.定义与基本功能定义：@ResponseBody注解用于将Controller方法的返回值，通过适当的HttpMessageConverter转换为指定格式后写入HTTP响应体中返回给客户端。它可以应用在方法上，也可以用在类上（当用在类上时，表
yolov8涨点系列之替换幽灵卷积GhostConv 没脾气的小玩家 yolov8涨点系列 YOLO 目标检测
文章目录核心思想主要步骤优势yolov8.yaml文件增加CBAMyolov8.yamlyolov8.yaml将Conv卷积替换成GhostConv 幽灵卷积（GhostConv）是一种新颖的卷积操作方法，旨在解决传统卷积神经网络中参数量和计算量过大的问题，尤其适用于资源受限的设备。以下是对幽灵卷积的详细介绍：核心思想常规的卷积操作会产生大量的特征图，其中存在一定的冗余信息。幽灵卷积的核心思
YOLO 目标检测的改进方法
YOLO目标检测的改进方法可以从模型架构、训练策略、损失函数等多个方面入手，以下是一些常见的改进方法方向及参考文献：模型架构改进骨干网络替换：使用更轻量或更强大的网络替换原始骨干网络。轻量级网络如MobileNetV3、ShuffleNetV2等适合移动端部署，可提高推理速度；高性能网络如ConvNeXt、SwinTransformer等能提取更丰富的语义特征，提升检测精度。还可添加CBAM、SE
U3复盘教育学一班35袁欣怡
1，从本单元中我学到的最重要的理念（精读和视听说分别总结）精读学会理财不要过度追求大城市的生活和富人的生活方式视听说表情比话语更有力2，我在本片文章／音频／视频中学到的怦然心动的单词（精读和视听说分别总结）精读gorgeousa.眩目艳丽的，极其宏伟的residencen.大宅；居所strikinga.惹人注目的modesta.不大的，不很贵的，适度的convictionn.坚定的信念或看法exe
YOLOv11轻量化方案的技术方案包，包含代码实现、对比图表和图文说明 zzywxc787 python 深度学习机器学习
以下为YOLOv11轻量化方案的技术方案包，包含代码实现、对比图表和图文说明：一、核心轻量化方案模型结构优化（代码示例）importtorchimporttorch.nnasnnclassEfficientConv(nn.Module):"""轻量化卷积模块"""def__init__(self,in_channels,out_channels,kernel_size=3,stride=1):su
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，