ZJU_fish1996

[引擎开发] 深入GPU和渲染优化（进阶篇）

[引擎开发] 深入GPU和渲染优化（基础篇）_quad overdraw-CSDN博客

在上述的基础篇中，我们对各种概念做了一个简单的介绍，在此篇文章中，我们将做更进一步的讲解。

GPU指令流水线

CPU的设计更加偏向于复杂的逻辑计算，它可以通过分支预测、指令重排来提高执行效率，但它切换线程的上下文操作会比较重；而GPU则与之相反，它适用于大量相同指令的执行，而不擅长处理分支和逻辑，由于其切换线程的成本极低，GPU通常通过线程切换来隐藏延迟。

我们认为GPU的核心模块就是流式多处理器（Streaming Multiple Processor），本文将其简称为SM。一个SM上包含了多个Core，Core中有多个线程可以同时执行相同的指令（通常就是32/64个线程），这种多线程执行单一指令我们就称作SIMT（Single Instruction Multi Thread，单指令多线程）。我们把Core上执行的线程束称为warp，warp是一个软件层的概念，它也是shader执行的一个最小单位。

当我们发起一个GPU操作，比如Dispatch或Drawcall时，会根据顶点数/像素数/线程块数量去分配特定数量的warp去执行。

GPU遵循取指、译码、发射、操作数传送、执行、回写的流程。整个过程是顺序执行的，也就是会按照编写的顺序去排布一个个指令，不存在CPU中乱序发射的现象。

整个Shader的执行过程相当于一个不断取指-执行的过程，对于每个warp而言，当不再有任何指令的时候，我们认为warp执行完成，当GPU任务的所有warp完成后，我们认为该GPU任务完成。
GPU Cycle是GPU执行的最小时间单元，每个指令都会消耗不同倍数的GPU Cycle。当我们衡量Shader的执行效率时，我们可以简单的认为整体的GPU Cycle越短，Shader的效率越高。

在整个GPU指令流水线的过程中，GPU还会做不少事情：

Instruction Cache

在不同GPU硬件中，指令可能是变长或者定长的，比较常见的指令位宽是64bit。指令的每个位会去记录不同的信息，这个位宽越大，能记录的信息也就越多；不同类型指令的编码形式也会有所差异。

比如说会去记录输入数（SOP）和输出数（DOP）的地址，一些状态量、控制量等等。

每个Shader产生的所有指令地址循序记录在程序计数器（Program Counter）中，每完成一次一次取指，PC将往后挪一个单元，指向下一条指令。

取指的过程也就是从指令缓存（Instruction Cache)读取指令数，并且存储到指令寄存器的过程。假如说指令缓存未命中，则会发起一个从内存加载指令到指令缓存的异步请求。

一般来说，指令的缓存命中率都是非常高的。

Scoreboard与指令依赖

在指令流水线中，如果指令之间存在依赖关系，下一条指令需要在上一条指令完成后才能执行。但GPU实际上并不关心哪些指令之前存在依赖关系，它关心的仅仅是取指之后的指令是否是可执行的。

当我们取指并存储到I-Buffer（指令缓冲区）后，我们同时需要去记录这条指令是不是有效的，也就是说，它接下来能不能够被执行，这个信息会和指令一并记录到I-Buffer中。如果指令不能被执行，说明该指令依赖的一些数据还没有准备好，也就是相关的结果还没有写回到目标寄存器。

为了获取指令的可执行性，GPU需要知道的是输入数的寄存器是否已经被其它指令写入。这可以通过标志位来完成，我们称之为记分牌（Scoreboard）。如果标志位标识已经写入，那么下一条指令的输入是可用的，如果标志位未写入，下一条指令则会处于等待状态，它会定期检查标志位来更新自己的状态。

对于一些GPU来说，如果它认为一些指令产生的stall是定长的，它可能会自动添加一些stall count，来避免依赖的计算。而对于具有不定长stall的指令，则需要使用scoreboard来控制依赖。

SIMT-Stack

GPU不具备很好的处理分支·、跳转和循环的能力。当shader代码中出现了分支后，GPU采取的做法是分支的if和else两部分逻辑都会去执行，并且每部分逻辑执行的时候，只会对满足条件的线程去执行。

那么，如何去确认哪个线程是满足条件的呢？一种比较常见的GPU流程控制的方式是：GPU使用一个Active Mask去记录满足当前线程是否满足执行条件，每个线程会占用1个bit。

整体的分支控制是基于SIMT Stack模块来实现的。从名字我们可以看出来这是一个基于栈的设计，也就是说它伴随着一个入栈和出栈的过程，在进入分支的代码块后入栈，在离开分支的代码块后出栈，出栈的位置我们称为汇合点。

对于嵌套分支而言，就会伴随着更多入栈和出栈的流程：

SIMT Stack存储了：Active Mask、目标PC(Program Counter)、最近汇合点PC，如下图所示：

在上述的例子中，执行完所有Return PC为C的指令，才能开始执行NextPC为C的逻辑。如果SIMT栈顶的Next PC和I-Buffer中的Next PC一致，说明不存在分支。

我们可以把循环也看做分支的一种，在执行循环代码块前入栈，在执行完循环代码块后出栈，判断条件是循环的退出条件：

如果循环是动态的，也就是每个线程的循环次数不一致，那么循环次数少的线程就有可能会去等待循环次数多的性能，直到所有线程达到最终汇合点（active mask全部为0）。

GPU资源分配

GPU设计是为了能够更快的执行并行计算，减少一些控制流的逻辑，所以大部分资源会在编译期就去计算使用的大小并预留分配，避免运行时动态的去计算。比较常见的就是常量寄存器、全局寄存器和共享内存，每个warp会根据使用情况分配对应资源。

由于这些资源分配是预先确认的，所以运行时不存在申请和销毁的逻辑，分配好的资源会固定预留给对应的线程。这样的弊端在于静态分析没有办法很好的处理分支的情况，它会假设所有分支都会执行到，这可能会产生一些冗余资源。

延迟隐藏

我们先来介绍GPU shader编程中重要的特性，延迟隐藏。

Stall

延迟隐藏从名字上来看，就是存在一些延迟的操作，但是被隐藏了，为什么能够隐藏呢？是因为在等待的期间，去做了一些其它的事情。这件事情非常好理解，就像做家务的时候，当你按下洗衣机的开关后，可以先去执行扫地的操作，而不是站着等待。

延迟本身的含义是，指令发射后，经过多少个GPU Cycle它的结果才是可用的。一个指令从发射到完成的耗时有多长，那么它的延迟就有多长。

在对延迟隐藏做深入的介绍之前，我们先来理解一个概念，什么是Stall？

在多个GPU Cycle中，GPU的硬件单元什么也没有做，我们就可以认为GPU停滞了，也就是发生了GPU Stall。

那么，什么时候会发生Stall呢？从计算硬件单元的角度来说，我们认为有以下两种类型：

● ALU Stall

● Load/Store Stall

对于ALU计算而言，会由于计算结果的回读产生Stall（个位数cycle）；而对于内存的读写，会由于不同类型内存读写产生Stall。

因此，一个指令贡献的GPU Cycle我们可以认为包含以下两部分，这两者的耗时加起来就是这个指令产生的延迟：

● 执行指令本身消耗的GPU Cycle

● 执行指令产生的Stall持续的GPU Cycle

在对stall有了初步的认知后，我们回到延迟隐藏的话题，回到一开始“做家务”的例子，我们可以通过“扫地”去隐藏“洗衣机工作”的延迟，是因为这两件事情是可以并行的；同理，在LD/ST执行读写操作的时候，ALU也可以同时执行计算操作，因此，我们同样能够使用ALU计算隐藏LD/ST的延迟。

简单来说，就是在GPU中，我们执行完读写指令后，不一定需要去等待读写完成，而是可以执行下一个指令；同理，执行完ALU指令后，不一定需要等待计算结果写回，而是可以执行下一个指令。这就是对GPU延迟隐藏最朴素的理解。

Warp Scheduler

实际上，GPU延迟隐藏的实现更为精妙，正如我们在开篇所提及，GPU通常通过线程切换来隐藏延迟。这句话究竟应该怎么理解呢？

我们知道，SM上有多个Core，在GPU任务发起后，会将warp分配到不同的SM中的Core。每个SM都会分配到特定数量的warp，这个数量取决于SM本身core的数量和Shader本身的情况。

分配到一个SM中的所有warp，它们的执行上下文（Context）常驻在SM中的寄存器中。因此，从一个warp切换到另一个warp不需要保存和还原上下文，它的切换可以认为是几乎无成本的。

此时，如果发生了GPU Stall，为了隐藏延迟，GPU可以做如下两件事：

● 执行当前warp中的下一条指令

● 切换到其它warp，执行它的下一条指令

其中前者就是我们在前面提到的对延迟隐藏的朴素理解，后者也就是我们所说的通过线程切换隐藏延迟。以上两种情况其实可以合并概述成一种情况，那就是选择任意warp，执行它的下一条指令。

如果在同一个warp中，前后两条指令没有依赖关系，那么就可以连续发射这两条指令，对应于上述的第一种情况，这就是GPU中的第一种并行情况，我们称之为指令级别的并行；如果GPU可以切换到另外一个warp来执行，对应于上述的第二种情况，我们称之为线程级别的并行。

在每个SM中，warp的调度执行是有Warp Scheduler负责的。每个warp中的I-Buffer会去记录当前指令和指令状态（下图），根据这个状态，每个Cycle中Warp Scheduler会去选择当前准备好的（Ready）的一个warp去执行它的下一条指令，比如说选择第n个warp的第m条指令。那么这里没有准备好的warp有很多原因，比如依赖的输入没有就绪，指令缓存失效了，执行依赖的硬件单元忙碌中，等等。

根据GPU硬件的不同，每个Cycle可以调度一个或多个warp同时执行。

比如我们执行这样一个shader：

float2 uv = a + b; //(ins0)
Tex t = Texture(Image, Sampler, uv); //(ins1)
// ...

我们假设a+b是一个指令(ins0)，texture load是另一个指令（ins1) ，那么我们可以循环执行其它warp的算术指令(ins0)来隐藏这个纹理采样带来的一部分延迟。

通过这样的操作，我们确保了每个硬件单元都是尽可能忙碌的，也就是说它有一个比较高的占用率（High Occupation），这也是我们衡量GPU效率的一个重要指标。

那么在GPU中，如果多个warp都处于Ready的状态，Warp Schedular会先执行哪一个warp呢，是当前warp的下一条指令，还是切换到其它warp执行相同指令？

实际上这里涉及到了比较复杂的调度算法。如下图所示，不同的调度算法下，总体的GPU Cycle也有细微的差异，比如Round Robin就是一种循环调用不同warp的相同ALU指令来隐藏LD/ST延迟的算法。

reference : Dynamic Resizing on Active Warps Scheduler to Hide Operation Stalls on GPUs

影响延迟隐藏的因素

那么，什么东西会影响到延迟隐藏的效率呢？

① 每个SM中分配的warp总数量

如果warp的数量不够多，那么Warp Scheduler在调度warp执行高延迟的指令时，下一周期就有很大概率找不到可以切换的warp。

进一步来说，SM的warp总数量一个取决于GPU任务的总线程数，另一个取决于shader使用的资源（寄存器/共享内存）。

② 指令的独立性和依赖性

GPU会计算指令之间的依赖关系，如果后续指令依赖于一些高延迟的指令的结果，这意味着warp sheduler在高延迟指令还没有结束的时候，无法切换到该warp的后续指令（或者说该warp处于Not-Ready的状态）。

分支

shader代码中的分支包括静态分支和动态分支。

静态分支也就是uniform分支，它的值往往在shader执行之前就能获取，静态分支的消耗比较低。而动态分支是运行时才能确定分支条件的分支，我们在下面重点描述动态分支的情况。

对于GPU而言，我们已经知道warp能在同一时间对多线程执行相同的指令，这里限定了指令的相同，而对于分支来说，warp里的不同线程可能会执行到不同分支的逻辑，这种现象被称为线程束分化（warp divergence）。

分支与并发数

假如分支的嵌套比较多（栈深度），那么也就会占用到较多的内存资源。

分支嵌套越深，SIMT Stack的层数也就越多，使用的资源也会越多，那么可分配到SM中的warp数量就会越少。在后面我们会提到，分支的嵌套层数和全局寄存器（GPR）的情况会共同影响到线程组的并发情况，受限于这两者表现较差的那个。

因为循环的每次迭代伴随着push和pop的过程，loop和if一样只会贡献一次栈深度，循环的次数并不会影响栈的深度。

循环展开

像上面这种常量的循环，实际上可以直接做展开（添加UNROLL关键字或编译器自动）优化，它等价于这样的代码，牺牲了代码的长度来换取更好的性能：

优化实践

动态分支需要不同像素执行不同的逻辑，这些可能和具体业务相关较难优化掉；我们唯一能够考虑的就是把这个动态分支设计为BRANCH或者是FLATTEN，或者让硬件自动帮我们选择。

而静态分支中，所有像素执行的逻辑是一致的，这时候我们就可以考虑使用变体或者静态分支。

比如说有一些不同的逻辑，我们希望对材质A开启，对材质B关闭，我们可以考虑用uniform静态分支。这样的好处是我们只会生成一个shader，也不会有频繁的pso切换。

uniform int shadingmodelid;
if(shadingmodelid == 0)
{
    // ...
}
else if(shadingmodelid == 1)
{
    // ...
}
else if(shadingmodelid == 2)
{
    // ...
}

比如上述一种比较极端的做法，通过静态分支来切换shadingmodel。这样的话GPU没有什么分歧，执行上的性能损失不高。但这样做可能会加重寄存器的负担。

假如说我们增加变体带来的损失会更小，那么我们就会去考虑变体。比如说一些特殊的效果，比如一些动态效果，它只会在特定的情况去执行到，也就是说这里只有时间上的变化，没有空间上的变化，那么我们也不会存在变体切换产生的消耗。

这个时候把它做成变体的话，也就是做一个有效果的shader，和一个没有效果的shader，主要的压力是包体这里的，但对于实时性能来说肯定是会更好的。

但变体存在的一个问题是，当我们的特殊效果越多，那么可能存在的变体组合是一个乘法关系，处理不当会出现可怕的变体膨胀，这里假如我们能够把一些效果放到后处理去实现，能够有效的缓解这种变体膨胀。

数据访问

我们在前面提到了纹理的一些知识，我们之所以会这么关注纹理，是因为shader中执行纹理采样可能会需要上百个GPU Cycle；在执行内存访问这一步操作的时候，硬件单元就会切换去执行其它线程的任务，这就是我们前面说的多线程延迟隐藏。

采样依赖

我们在编写shader代码时要尽可能地避免一些采样的依赖，这样会不利用硬件单元的warp切换，因为后续的逻辑必须依赖于采样的结果，比如苹果分享的如下示例，前一种写法会有2个依赖，而后者只有1个依赖。

// real dependency : 2 watis

half a = tex0.sample(s0,c0)
half res = 0.0h;

// wait on a
if(a >= 0.0fh) {
    half b = tex1.sample(s1,c1);
    res = a * b；
}

// no dependency : 1 wait

half a = tex0.sample(s0,c0);
half b = tex1.sample(s1,c1);
half res = 0.0h;

// wait on a and b
if(foo) {
    res = a * b;
}

uniform与常量寄存器

在shader中，除了贴图采样，我们还会去访问buffer，uniform等等。

对于Shader中的常量，GPU会有常量缓冲区（constant buffer）或者是常量寄存器（constant register)来存储这些数据。

对于设计了常量寄存器的GPU，像uniform这样的数据，GPU会将其提升到常量寄存器中，一般预留的大小是足够我们传递一些常规shader参数的。因为同一个shader中，不同的线程访问的是同一份数据，硬件可以在绘制前一次性把uniform的数据加载到常量寄存器，就不需要每个线程单独去加载相同数据了，这个时候uniform的访问消耗我们可以认为非常低。

此外，如果我们使用了一些基于uniform计算得到的常量，比如uniform a + uniform b，那么驱动也有可能会帮我们把结果提升到常量寄存器中。

只有在代码中引用到了的uniform数据会被提升到常量寄存器中，这意味着我们在使用uniform时是允许一些数据的冗余的，这些冗余只会影响uniform上传的带宽，但对实际效率没有太大影响。

但如果我们使用了超过常量寄存器上限的数据，即寄存器溢出（register spill)，就会增加每个线程load/store uniform数据的消耗，这个时候就会对性能产生影响了；此外使用动态下标去访问uniform数组也会导致uniform数据不能提升到寄存器中。

同时，在常量寄存器足够的情况下，把参数放在uniform而不是普通的buffer中，会有更好的性能情况。

向量内存访问单元

虽然不少现代GPU已经从vector运算单元转向了scalar运算单元，但在内存访问上，依旧保留了向量内存单元，这意味着我们在读写buffer数据时，最好将零散的scalar pack成一个vector4。

同理，对于纹理，它以zigzag的形式存储。这样也可以方便一次采样2x2个像素，并且它们在空间上是连续的。

这也就意味着，point采样和bilinear采样在访问像素上是没有差别的。更直观地，shader语言会为我们提供gather函数，这样可以一次性采样到相邻的4个像素结果，相比起bilinear返回的单一插值结果，我们可以实现更为细节的控制。

合并读取

合并读取（Memory Access Coalescing），也就是说一个warp中，跨多个相邻线程的连续内存访问硬件是可以合并的。

比如线程0访问位置n，线程1访问位置n+1...线程31访问位置n+31，那么这些访问是可以合并成一个单一的全局内存访问。

另一方面，如果warp中所有线程都访问了同一个数据，在单个线程访问了这个数据后，其结果可以通过广播的方式传播给同一warp中的其它线程。

缓存机制

当我们读取Texture或者是Buffer时，如果直接从系统内存读取，那么可能会耗费几百个Cycle。但如果命中了缓存，那么这个消耗会进一步降低。

常见GPU的设计是，在每个SM中，都有纹理独立的L1 Cache, 指令的L1 Cache，以及共享内存的L1 Cache。不同SM还有公共的L2 Cache。

Cache通常不会太大，所以这个缓存的内容总是不在不断更新的，因此我们通常不能指望跨时间的数据缓存，这一缓存更常见的应用场景发生在单个线程或者多个线程的连续访问内存时，通过一次访问操作将数据都读取到缓存。在一些理想情况下，如果连续线程通过一一对应的关系访问了连续的内存，缓存几乎都能命中。

我们在前面两节分别提到了“向量内存访问”和“合并读取”，它们分别描述了这样的情况：

● 在同一个线程中，以vector4为基本单元访问内存

● 在相邻线程共享一次vector4访问的结果

这个思想同样可以扩展到“缓存”的访问上，我们知道，Cache加载的最小粒度是一个Cacheline，Cacheline的大小通常为128kb。那么如果我们在一个线程中访问连续的内存，或者说同一个warp访问连续的内存，那么就更有可能命中cacheline。我们有一些使用的例子：

● 合并vertex attribute的buffer

使用一个buffer连续存储一个顶点的所有属性，在执行该顶点的vs时，这些属性就更有可能都在cacheline中（顶点属性缓存）；如果我们把每个属性单独存储在不同的buffer中，比如position buffer、normal buffer、uv buffer独立存储，实际上不同线程（顶点）之间也能命中cacheline，但考虑到剔除的顶点，由于它们和可见顶点共享cacheline，这些属性带宽会被浪费。

● 制作纹理mipmap

在纹理大小和屏占比比较匹配的时候，我们在相邻像素采样的纹理也是相邻的。过大的纹理会导致稀疏的采样，降低缓存命中率。

当我们讨论到缓存时，总是会不可避免的讨论到缓存一致性的话题。对于GPU而言，缓存一致性的维护是非常昂贵的，因此GPU往往只会提供显式的缓存刷新/失效指令，比如通过API层添加Barrier来维护确保内存访问的安全性。

16位寄存器下的读取

GPU寄存器的位宽有16位/32位的差异。

针对16位的寄存器，这在一些移动平台的GPU比较常见，如果我们使用32位的数据，那么就有可能要使用双倍的寄存器，所以如果我们能够上传16位的buffer，或者说用half去存储贴图采样的结果，那么我们的访问会使用更少的寄存器，从而得到更少的带宽，更少的功耗。

比如说GPU中的贴图以RGB8的比较常见，如果后续的计算精度half也是足够的话，我们更推荐这样的写法：

// good
half Tex = Texture2D(Texture, Sampler).r;

// bad
float Tex = Texture2D(Texture, Sampler).r;

寄存器

我们在前面提到了常量寄存器的概念，这是一个比较特殊的寄存器，除了uniform还有一些其它的字面量也有可能存储在这里。除此之外，更为常用的是global register/全局寄存器，或者说是general perpose register（GPR）/通用寄存器，它存储了shader计算中的一些中间变量。我们通常所说的寄存器就是这种类型的寄存器。

通常来说，我们可以粗略地认为，代码越长，用到的寄存器可能就越多。

每个流式多处理器（SM）有自己的寄存器文件，寄存器被分为多个bank，供每个线程独立访问使用。

寄存器与并发数

由于SM的寄存器大小是固定且有限的，这意味着单个warp使用的寄存器越多，可分配到SM中的warp数量就会越少。warp的总数量减少意味着没有足够多的warp可以切换来隐藏延迟，这对于GPU来说是很致命的。

寄存器的优化

在优化寄存器的过程中，由于warp数量随着寄存器使用的增加是阶梯状减少的，我们至少应该确保它不超过某个阈值而落入下一个区间。

一方面，我们可以通过离线分析的方式直接获取当前Shader中寄存器的使用情况，进而分析得到warp数量的情况，来协助我们优化Shader Code。

另一方面，我们可以去分析代码中的每个语句会产生多少个临时变量来优化寄存器的使用，因为Shader代码中引用的临时变量越多，需要的寄存器就越多。

我们在前面提到的基于uniform的静态分支，也包括普通的动态分支，就有可能导致寄存器使用的增长。因为在离线分析的情况下，会基于分支都会跑到的情况去分析寄存器的使用。

不同平台的寄存器情况存在差异，我们可以粗略认为单个Shader执行过程中用到的寄存器（每个线程用到的寄存器）最大值分布在十几到几百个。

寄存器溢出

在最坏的情况下，当shader使用了超过上限的寄存器，会发生寄存器溢出（register spilling)。不管是常量寄存器还是全局寄存器都有可能发生溢出。

发生溢出后的数据存储在SM中的Local Memory中。Local Memory描述的是寄存器/其它线程数据溢出后存放的内存，每个线程有独立的数据。这是一个抽象的概念，实际上可能存储在global memory/l1 Cache/l2 Cache。

寄存器溢出后，会产生Load的调用，严重影响性能。

线程利用率

如果我们以计算着色器的角度去思考GPU的一个执行逻辑会比较直白，我们发起的一个线程组会被分配到多个warp上去执行，所以通常线程组的数量会设置为warp的倍数，避免线程的浪费。如果我们总是发起一些比较琐碎的任务（线程数不足32，线程总数量少），那么GPU的利用率就会非常低。

假如我们发起的是绘制任务，那么我们执行的就是顶点着色器和像素着色器，我们可以认为一个线程会去执行一个顶点的逻辑，或者一个像素的逻辑，同样的，这些任务会被分配到多个warp上去执行。

对于像素而言，我们会以quad为基础单位把像素打包到warp中执行，这时候三角形的边是无法填满四个像素的，这时候线程的利用率就会下降。这里就会衍生出几个问题：

● 单个drawcall对应的物件的屏占比太小，所占的像素远远小于warp的线程数，这种drawcall通常推荐在CPU中就通过screensize剔除；

● 物件包含大量的小三角形，众所周知，三角形数量越多，边越多，这不仅会导致顶点着色器的压力过大，还会导致没有填满的quad会越多，出现这种情况通常是因为LOD的设置不合理，使得每个像素对应的顶点过多。

ALU

某种意义上，当我们需要优化shader时，实际上要优化的就是整体指令的Cycle数，或者说提升指令的吞吐量（每个Cycle可以执行的指令数）。

因此我们在衡量Shader性能的时候，应该对每个ALU指令的耗时有一个初步的认知。

首先，我们需要了解到，我们书写的Shader代码是描述性语言，比如hlsl和glsl，而常见的游戏引擎unity和ue都选择了使用hlsl作为描述性语言。而不同图形API会使用不同的类汇编语言，要么来自于描述性语言的转换，要么来自于中间字节码(IR)的转义。

项目运行时，会去读取binary IR进行编译，生成实际的机器码；我们也可以离线做预编译。

常见指令

DX	DXBC
Vulkan	SPIRV
Metal	Metal SL

我们以dxbc为例，它的反汇编语法形式比较简单，可以概述为：

op dest src0 src1

其中op对应指令，dest对应目标输出位置，src0和src1对应两个输入，比如：

        add r0.xy v0.xy v1.xy

add	加法
abs	绝对值
and	按位和
div	除法
dp	点乘
eq	相等
exp	指数
mad	乘加
mov	赋值指令
mul	乘法

指令吞吐

当我们衡量指令的消耗的时候，我们会有不同的衡量指标。

比如常见的是指令的执行吞吐，也就是一个Cycle能够执行的指令数量，作为示例，以下位NV某一代的指令吞吐：

add/mad/multiply(16bit)	add/mad/multiply(32bit)	exp,log,sin,sqrt（32bit)...
128 opt/cycle	64 opt/cycle	16 opt/cycle

由此可见：

● 单个指令的执行耗时基本远小于1个cycle

● 一些复合指令（比如乘加）的吞吐和简单指令的吞吐一致，这意味着使用复合指令会更划算

● 数据位宽越大，指令吞吐就越小

● 初等函数的指令的位宽是固定的（不可用半精度优化）

在实际使用中，我们还会去考虑指令整体的GPU Cycle。一般关心的是指令发射后，到它返回的结果可用的时候，经过了多少个Cycle。在这个标准下，一些非常简单的指令只需要1个Cycle就能完成。

指令的实际耗时远远比指令吞吐要高，是因为全局寄存器（GPR）的读写也会带来消耗。在ALU指令中，我们需要处理指令的输入和输出数量，它的输入可以来自于全局寄存器、常量寄存器或是立即数，但不能直接来自内存（需要先加载到寄存器），它的输出只能到全局寄存器中。

寄存器的读写我们认为在1个cycle左右，所以一些简单的指令我们就认为是1个cycle左右的数量级就能完成。而另外一些比较复杂的指令，比如初等函数、LD/ST，这些指令可能会存在竞争，需要处理同步，因此耗时就是不确定的了。

half和float

如果发生了位长转换，有些GPU上这些操作是免费的，而在有些GPU上，可能会产生move指令。

向量与标量计算单元

不同的GPU会使用不同的ALU计算单元，比如SIMD(Vector ALU）和Scalar ALU。

对于 Scalar ALU而言，如果我们执行向量操作，它实际上会产生四条指令，比如：

        float4 result = a + b;

对应了四次add：

result.x = a.x + b.y; result.y = a.y + b.y; result.z = a.z + b.z; result.w = a.w + b.w;

编译器优化

优化示例

硬件通常会帮助我们做一些计算上的优化，这里举了四个例子，是在Adreno机器上做的一个测试，会发现我们试图去做的一些”优化“，可能编译器已经帮我们做好了。

① 常量预处理

像我们之前说的uniform值，代码中直接出现的常量，代码中的常量表达式，基于uniform计算得到的常量（uniform sub-expressions)，这些都有可能被驱动优化，放到常量寄存器中。对于常量表达式、uniform sub-expression而言，驱动有可能会将计算好的结果放到常量寄存器。

② SIMD

在支持标量计算的机型上强制使用向量化计算对指令没有任何影响。但如同前面提及的一样，大部分驱动依然保留向量化的内存访问。

③ 静态分支移除

基于uniform的静态分支，它的好处是当uniform的结果为0时，编译器可能会自动优化掉if内的语句，就像是if内的语句不存在一样。但需要注意的是，该代码的寄存器影响依然是存在的。

④ 未引用代码移除

虽然通常来说我们并不会手动去写一些无用代码，但在一些商业引擎中，有不少shader代码是自动生成的，这中间不可避免地会引入一些公共代码指令，这些公共代码可能并没有真正的被引用到，但无需担心，这通常能优化。

实际上驱动会做哪些优化，最稳妥的验证方式是实机测试去观测gpu的实时指标，或者使用离线编译器去生成shader的各项离线性能指标。

比如上图中，我们就能看到编译器给出的shader离线分析性能指令。从中我们可以观测到一些宏观的数据，比如：

half和float计算指令数量；

load/store指令数量；

会带来延迟的指令数量；

分支的指令数量；

除此之外，在其它的离线分析器中，我们还能看到常量寄存器、全局寄存器的使用情况，每个核心的warp数量这样的宏观数据，甚至每条shader语句的情况。

SSA

SSA也就是Static Single-assignment，也是shader编译后的一些中间代码的一种描述方式。它会把每个变量翻译成代号，比如

float a; a= 0; a = 1;

就会被解析为

SSA_0 = 0; SSA_1 = 1;

通过对变量可达性的分析，我们就可以解析出那些实际上没有引用的代码，并在最终执行中移除这些逻辑。

你可能感兴趣的:(引擎,图形渲染)

docker基础（一）运维搬运工容器-docker docker 容器运维
相关概念介绍Docker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖到一个可移植的容器中，然后发布到任何流行的linux机器上，也可以实现虚拟化，容器是完全使用沙箱机制，互相之间不会有任何接口。Docker有几个重要概念：dockerfile，配置文件，用来生成dockerimagedockerimage，交付部署的最小单元docker命令与API，定义命令与接口，支持第三方系统集
第七章索引及执行计划，存储引擎执笔为剑 #MySQL运维篇编辑器 mysql
第七章索引及执行计划，存储引擎1，索引及执行计划1，作用：提供类似书目录的作用，目的是优化查询2，所用的种类（根据算法）B树索引Hash索引R树FulltextGIS3，B树基于不同的查找算法分类介绍B-tree：在范围查询方面提供了更好的性能（>showengines;#存储引擎作用在表上，不同的表可能有不同的存储引擎mysql>select@@default_storage_engine;#查
了解什么是Docker 黑风风 DevOps学习 docker eureka 容器
了解什么是DockerDocker是一个开源的容器化平台，它使得开发者可以将应用程序及其依赖项打包到一个轻量级的、可移植的容器中。这些容器可以在任何支持Docker的系统上运行，确保了应用程序在不同环境之间的一致性和可移植性。，同时享受隔离性和轻量级的优势。Docker的核心组件Docker引擎Docker引擎是一个客户端-服务器应用程序，包括一个长期运行的守护进程（dockerd）、一个REST
基于 JMeter API 开发性能测试平台咖啡加剁椒⑦ 软件测试 jmeter 功能测试软件测试自动化测试程序人生职场和发展
背景：JMeter是一个功能强大的性能测试工具，若开发一个性能测试平台，用它作为底层执行引擎在合适不过。如要使用其API，就不得不对JMeter整个执行流程，常见的类有清楚的了解。常用的JMeter类和功能的解释：TestPlan类：代表一个测试计划，它是性能测试的顶级元素。您可以使用它来设置全局的测试属性，如测试名称、线程组、监听器等。ThreadGroup类：代表线程组，它定义了并发执行的线程
主流公链 - Solana 面向Web3，春暖花开一步步了解Web3 Solana 智能合约区块链 web3
探索Solana区块链：下一代高性能区块链平台1.Solana简介Solana是一个高性能的区块链平台（TPS能达到10W级别），旨在实现高吞吐量和低延迟的区块链交易处理。它采用了一系列创新技术，其中包括ProofofHistory(PoH)，TowerBFT共识机制、Turbine快速状态复制引擎和GulfStream时空数据传输协议，以解决传统区块链网络中的性能瓶颈问题。2.Solana的技术
blog-engine-06-pelican 静态网站生成支持 markdown 和 reST 语法老马啸西风 java
拓展阅读blog-engine-01-常见博客引擎jekyll/hugo/Hexo/Pelican/Gatsby/VuePress/Nuxt.js/Middleman对比blog-engine-02-通过博客引擎jekyll构建githubpages博客实战笔记blog-engine-02-博客引擎jekyll-jekyll博客引擎介绍blog-engine-02-博客引擎jekyll-jekyl
gdb、mdb、docx、xlsx、pdf、图片、txt多格式文件集成预览开源GIS地图与信创
近期闭关研究了新成果，实现了gdb、mdb、docx、xlsx、pdf、图片、txt多格式文件集成预览。软件采用B/S架构，可代替ArcGISServer、GeoServer、MapServer等多种GIS引擎。软件只有20M大小，可运行于多种老旧Windows电脑以及国产化电脑桌面软件，免安装，双击即启动，叉掉即关闭支持gdb、mdb、docx、xlsx、pdf、txt、png、jpg、gif、
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
2021-10-10 《零工经济》-社会变革的引擎钟罗敏
曾经在网上、微信公众号上看到《零工经济》，非常好奇这是一本怎样传奇的书。匆匆九月份在当当网上，火速购买一本拜读。目前已经精读两遍，还不时在书上圈圈划划，重点内容牢牢印入脑海，挥之不去，久久回味无穷。作者戴安娜·马尔卡希（DianeMulcathy),美国考夫曼基金会资深研究员，巴布森学院客座讲师。她开设的MBA课程“创业与零工经济”被《福布斯》网站评为“全美十大创新性商学院课程”。零工经济作为伴随
Spark面试整理-Spark是什么？不务正业的猿面试 Spark spark 大数据分布式
ApacheSpark是一个开源的分布式计算系统，它提供了一个用于大规模数据处理的快速、通用、易于使用的平台。它最初是在加州大学伯克利分校的AMPLab开发的，并于2010年开源。自那时起，Spark已经成为大数据处理中最受欢迎和广泛使用的框架之一。下面是Spark的一些关键特点：速度：Spark使用了先进的DAG（有向无环图）执行引擎，可以支持循环数据流和内存计算。这使得Spark在数据处理方面
MySQL Enterprise Backup (MEB) for MySQL 8.0 深入解析及企业级备份恢复演练 lzyever MySQL mysql 数据库
一、备份恢复核心概念MEB简介MySQLEnterpriseBackup是Oracle提供的专业物理备份工具，专为MySQL8.0及以后版本设计，提供高效且低干扰的在线备份解决方案。它能够实现对InnoDB存储引擎数据的快速备份，并兼容MySQL的诸多高级特性。主要特点在线热备份:MEB在备份期间尽可能减少对数据库活动的阻塞，采用多线程技术并结合InnoDB的元组锁定机制，创建一致性备份。增量备份
从政府工作报告探计算机行业发展想你依然心痛个人总结与成长规划行业发展前景
文章目录每日一句正能量前言以“数”谋新、加“数”向实人工智能方面人工智能成核心驱动引擎软件方面通信方面后记每日一句正能量该来的始终会来，千万别太着急，如果你失去了耐心，就会失去更多。该走过的路总是要走过的，从来不要认为你走错了路，哪怕最后转了一个大弯。这条路上你看到的风景总是特属于你自己的，没有人能夺走它。前言2024年的两会是中国政治日历上一次重要的会议，吸引了全球的目光。在这次两会中，计算机行
从政府工作报告探计算机行业发展 MarkHD 其他
从政府工作报告探计算机行业发展政府工作报告作为政府工作的全面总结和未来规划，不仅反映了国家整体的发展态势，也为各行各业提供了发展的指引和参考。随着信息技术的快速发展，计算机行业已经成为推动经济社会发展的重要引擎之一。因此，从政府工作报告中探寻计算机行业的发展趋势、政策导向和未来机遇，对于行业内的企业和从业者来说具有重要的指导意义。提醒：在发布作品前，请把不需要的内容删掉方向一：政策导向与行业发展提
ego - 人工智能原生 3D 模拟引擎——基于AI的3D引擎，可以做游戏、空间计算、元宇宙等项目花生糖@ AIGC学习资源人工智能游戏空间计算
1.产品概述：Ego是一款AI本地化的3D模拟引擎，旨在让非技术创作者通过自然语言生成逼真的角色、3D世界和交互式脚本。该平台提供了创建和分享游戏、虚拟世界和交互体验的功能。2.定位：Ego定位于解决开放世界游戏和模拟的三大难题：难以编写游戏脚本、非玩家角色无法展现人类行为以及创建新的3D资产和世界的难度。通过AI技术，Ego致力于让用户可以用自然语言创建复杂的游戏和交互体验。3.创始人背景：创始
Python朗读在线音频和本地音频的三种方法 PythonFun python 编程小项目人工智能 python 音视频 pygame
在日常的Python软件开发中，我们经常会遇到一个非常重要的功能需求——让程序能够读取并显示文本内容。那么，如何实现这一功能呢？本文将提供几种方法供大家参考，其中第二种方法是最推荐的。一、pyttsx3法采用这个第三方模块，可以实现python软件朗读文本。首先，需要在cmd下安装这个模块：pipinstallpyttsx3然后，就可以通过初始化发声引擎，然后定义引擎的声音大小、语速。engine
Docker介绍与使用叶域 docker linux
Docker介绍与使用目录：一、Docker介绍1、Docker概述与安装2、Docker三要素二、Docker常用命令的使用1、镜像相关命令2、容器相关命令三、Docker实战之下载mysql、redis、zimg一、Docker介绍Docker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的操作系统的机器上，也能实现虚拟化。1、Docke
前端面试题 ===＞【HTML】禁止摆烂-才浅前端面试题前端 html
HTML面试题总结1.对HTML语义化的理解去掉或者丢失样式的时候能够让页面呈现出清晰的结构；代码结构清晰，方便团队的管理和维护，并且语义化更具有可读性，减少差异化；提升用户体验；例如：title、alt用于解释名词或者图片信息、label标签的活用有利于SEO优化，提升搜索引擎排名；和搜索引擎建立良好沟通，有助于爬虫抓取更多的有效信息；爬虫依赖于标签来确上下文和关键字的权重；方便其他设备的解析（
什么是分布式搜索引擎罗彬桦分布式搜索引擎搜索引擎分布式
什么是分布式搜索引擎搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。分布
Unreal Engine游戏引擎的优势咕噜签名-铁蛋游戏引擎虚幻
大家好，我是咕噜铁蛋！今天我将和大家分享关于UnrealEngine游戏引擎的优势。作为一款备受游戏开发者喜爱的引擎，UnrealEngine在游戏开发领域有着许多独特的优势和特点。让我们一起来看看UnrealEngine到底有哪些优势吧！1.强大的图形渲染能力UnrealEngine以其强大的图形渲染能力而闻名于世。它采用了先进的渲染技术，包括实时光线追踪、全局光照、高质量材质等，可以呈现出惊人
2022新版谷歌站群/谷歌站群源码/谷歌站群系统小杰jace 泛目录 php 百度搜索引擎
2022新版谷歌站群/谷歌站群源码/谷歌站群系统新版谷歌站群，刚出炉没多久，效果杠杠的，某些作者我就不说了，拿我的做二道贩子源码效果显著：1、系统采用静态缓冲的形式，亲和搜索引擎，无需数据库，无后台2、自定义关键词、自定义文章内容，无需采集，首次导入后自行进行组合生成文章3、自带蜘蛛统计系统可以清晰查看每日蜘蛛数量，便于查看效果4、全网首创原创图片自动生成，极大程度进行原创度提升，秒杀伪原创的市面
mesh渲染到ui_UGUI深入理解--渲染系统陈人 mesh渲染到ui
UGUI怎么显示一张图片？从原理上来说，显示图片和其他渲染一样，需要的也是mesh和material。所以我们要看的就是怎么把mesh和material传给引擎。UI的渲染可以分三部分来看CanvasUpdateRegistry负责驱动，也就是通知需要渲染的UI组件，为什么用通知的方式而不是UI自己处理呢，UGUI的处理流程是这样的，UI自己记录是否需要重新渲染，注册事件给registry，reg
count(*)、count(主键id)、count(字段)和count(1)的区别追涨杀跌 #MySQL mysql count聚合函数
学习丁奇（林晓斌）老师MySQL实战45讲课程后提炼的笔记！！！需要注意的是，下面的讨论还是基于InnoDB引擎的。这里，首先你要弄清楚count()的语义。count()是一个聚合函数，对于返回的结果集，一行行地判断，如果count函数的参数不是NULL，累计值就加1，否则不加。最后返回累计值。所以，count(*)、count(主键id)和count(1)都表示返回满足条件的结果集的总行数；而
linux安装单机版spark3.5.0 爱上雪茄大数据 JAVA知识 spark 大数据分布式
一、spark介绍是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等.Spark主要用于大数据的计算二、spark下载spark3.5.0三、spark环境变量配置exportJAVA_HOME=/usr/local/jdk1.8.0_391exportJRE_HOME=/usr/local/jdk1.8.0_391/jr
Flask中session失效时间设置忘了呼吸的那只猫
最近需要使用Python开发web系统，主要用到的框架就是Flask，前端使用Jinja2模板引擎和Bootstrap，web容器使用Cherrypy，其中关于Login管理的使用了Flask-Login插件。基本上也是从零学起，前前后后花了有好几个月的时间，还是在借鉴了已有的一些项目基础上。在开发的过程中有很多的想法和体会，记录下来，有不对的地方欢迎大家指正。在处理登录管理的部分，在Flask-
百度外推代发收录排名代发微博热议百度收录多久九千营销
在互联网时代，许多网站和个人都希望将自己的内容快速收录到百度搜索引擎中，以增加曝光和流量。本文将讨论如何通过外推代发的方式来提高百度收录的机会，并解答代发微博热议百度收录需要多长时间的问题。联系我们【xhs1.net】业务全能，有需求请联系微：jiu991144，jiu994455Q：74146394928110454【tg：a28110454】jiuke1百度外推代发收录排名的方法内容质量至关重
数大数据时代的关键：融合数据治理与AI为企业增值_光点科技光点数据治理人工智能大数据科技
在数据驱动的今天，企业不能再将数据治理和人工智能（AI）视作孤立的实体。它们之间的协同作用已经成为推动企业增长的强大引擎。本文将探索数据治理与AI如何相互作用，形成闭环，以及企业如何利用这一关系来提升数据价值，实现数字化转型。数据治理与AI的依存共生数据治理是整理和优化数据的过程，以确保其质量、安全性和可用性。而AI，尤其是大模型，是解析和应用这些数据的工具。没有高质量的数据治理，AI无法发挥其最
MySQL 中常用的存储引擎 Rcain_R 数据库 SQL 数据库SQL操作 mysql 数据库 database java 后端 sql
1、MySQL中的存储引擎MySQL支持多种数据库引擎，每种引擎都有其特定的优势和适用场景。1.1InnoDB：这是MySQL的默认数据库引擎。它提供了事务安全（ACID兼容）的表，支持行级锁定和外键约束。InnoDB还具有崩溃恢复能力，对于需要高并发读写和事务支持的应用场景非常适用。默认存储引擎，支持事务处理（ACID特性），具备崩溃恢复能力。支持行级锁定，提高并发性能，尤其是在多用户同时更新同
科技革新的引擎-2024年AI辅助研发趋势 lzyever 科技人工智能
随着科技的飞速发展，人工智能（AI）已经在许多领域展现出了其强大的潜力和价值。特别是在研发领域，AI的辅助作用日益凸显，成为推动科技革新的重要引擎。在2024年，这种趋势将更加明显，我们可以从以下几个方面来探讨这一趋势。首先，AI辅助研发将极大地提升研发效率并降低成本。在研发过程中，AI可以通过自动化流程、数据挖掘和深度学习等技术，加速实验和设计的过程，从而缩短研发周期。同时，AI还可以优化资源配
让数据在业务间高效流转，镜舟科技与NineData完成产品兼容互认镜舟科技数据库云计算
近日，镜舟科技与NineData完成产品兼容测试。在经过联合测试后，镜舟科技旗下产品与NineData云原生智能数据管理平台完全兼容，整体运行高效稳定。镜舟科技致力于帮助中国企业构建卓越的数据分析系统，打造独具竞争力的“数据护城河”，其基于全球领先的开源项目StarRocks研发了两款企业级软件——镜舟分析型数据库和镜舟湖仓加速引擎，在用户画像分析、指标平台建设、固定报表加速、实时数据查询分析等领
openGauss SQL引擎插件开发指导 openGaussMan sql 数据库 openGauss
开发流程①在openGauss社区Plugin仓进行兼容性相关开发(openGauss/Plugin)②通过fastcheck自测以及CI门禁③提供checkin测试报告和开发文档并通过SIG组评审开发要点开放接口函数DLL_PUBLICPG_FUNCTION_INFO_V1_PUBLIC统一管理为了避免插件与内核同名函数所产生的符号冲突，我们在makefile中使用-fvisibility=hi
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，