清澜

CUDA编程基础

一、快速理解CUDA编程

1.1 CUDA简介

CUDA（Compute Unified Device Architecture）是由NVIDIA推出的并行计算平台和应用程序接口模型。它允许开发者利用NVIDIA GPU的强大计算能力来加速通用计算任务，而不仅仅是图形渲染。通过CUDA，开发者可以编写C、C++或Fortran代码，并将其扩展以在GPU上运行，从而显著提高性能，特别是在处理大规模数据集和复杂算法时。

1.2 CUDA并行计算的核心思想

1.2.1 并行计算基础与CUDA的独特之处

传统的C/C++编程主要依赖于CPU进行串行执行，即一个指令接一个指令地顺序执行。然而，CUDA编程的核心在于数据并行性和任务并行性。这意味着大量相似的操作可以同时应用于不同的数据元素，或者多个独立的任务可以并行执行。这种并行性特别适合处理大规模的数据集，如图像处理、科学计算等。

CUDA采用的是**单指令多线程（SIMT）**架构，不同于传统的多核CPU上的多线程（SMP）。在SIMT中，一组线程（通常称为warp）会同时执行相同的指令，但作用于不同的数据。这种方式非常适合数据并行的任务，例如矩阵乘法、图像滤波等。

1.2.2 资源的变化：从CPU到GPU

计算资源：CPU通常有少量的高性能核心（如4核、8核），每个核心都有复杂的控制逻辑和较大的缓存。相比之下，GPU拥有成百上千个简单的核心，专门设计用于高效处理大量简单任务。
内存层次结构：CPU程序主要依赖于少量的高速缓存和大容量的主内存。而在CUDA中，除了全局内存外，还提供了共享内存、寄存器、常量内存和纹理内存等多种内存类型，每种都有其特定用途和访问速度。
带宽和延迟：GPU的全局内存带宽远高于CPU，但由于物理距离较长，访问延迟也较高。因此，有效利用共享内存和寄存器是提高CUDA程序性能的关键。

1.2.3 编程思想的变化

数据并行化思维：将问题分解为可以并行执行的小任务。例如，向量加法可以通过让每个线程负责一对元素的加法操作来实现。
内存管理：需要手动管理设备内存（通过cudaMalloc和cudaFree），并且要考虑到主机与设备之间的数据传输成本。
同步机制：由于并行执行的特点，线程间的同步变得至关重要。例如，块内的线程可能需要使用__syncthreads()确保它们在继续执行之前完成某些关键步骤。

1.3 CUDA编程的核心流程

1.3.1 初始化与环境设置

选择设备：通过调用cudaSetDevice选择要使用的GPU设备。
分配内存：使用cudaMalloc为设备端变量分配内存，使用cudaMemcpy将数据从主机复制到设备。

1.3.2 编写核函数

定义核函数：使用__global__关键字声明核函数，指定输入输出参数和执行逻辑。
启动核函数：通过<<<...>>>语法配置网格和块尺寸，并启动核函数。例如，kernel<<>>(args)。

1.3.3 执行与同步

异步执行：可选地使用流（Stream）来并发执行多个内核或拷贝操作，提升效率。
同步操作：使用cudaDeviceSynchronize等待所有先前启动的内核执行完毕，确保结果可用。

1.3.4 结果回收与清理

获取结果：使用cudaMemcpy将计算结果从设备复制回主机。
释放资源：调用cudaFree释放设备端分配的内存，调用cudaDeviceReset重置设备状态。

1.4 线程层次结构

CUDA编程模型基于一个分层的线程组织结构：

Grid（网格）：由多个线程块组成。
Block（块）：每个块包含多个线程。块是调度的基本单位，同一块内的线程可以协作，例如共享内存。
Thread（线程）：执行实际计算工作的最小单位。

这种层次化的结构允许程序员灵活地根据问题规模调整并行度。

1.4.1 内存层次

CUDA提供多种类型的内存，每种都有其特定用途和访问速度：

全局内存（Global Memory）：容量大但访问延迟高，所有线程都可以访问。
共享内存（Shared Memory）：位于每个线程块内部，用于块内线程间的数据交换，访问速度快但容量有限。
寄存器（Registers）：每个线程私有的高速存储，用于临时变量。
常量内存（Constant Memory）：只读且缓存优化，适合存储不变的数据。
纹理内存（Texture Memory）：支持二维空间局部性访问模式，适用于图像处理等应用。

1.4.2 核函数（Kernel）

核函数是在GPU上执行的函数，用__global__关键字声明。它们不能直接调用，而是需要从主机代码中启动，语法为kernel<<>>(args)。核函数没有返回值，参数列表可以包括输入输出指针以及尺寸信息等。

1.5 CUDA编程模型

CUDA采用的是**单指令多线程（SIMT）**架构，在这种架构下，一组线程（通常称为warp）会同时执行相同的指令，但作用于不同的数据。这种方式非常适合数据并行的任务，如矩阵运算、图像处理等。

1.5.1 线程索引

为了使每个线程知道它应该处理的数据位置，CUDA提供了几个内置变量：

blockIdx：当前线程块在整个网格中的索引。
threadIdx：当前线程在其所属块内的索引。
blockDim：当前块的维度大小。
gridDim：整个网格的维度大小。

通过组合这些变量，我们可以计算出每个线程的唯一ID，进而确定该线程应处理的数据位置。

1.5.2 同步机制

在同一块内的线程可以通过调用__syncthreads()函数实现同步，确保所有线程到达这一点后继续执行。这在需要保证块内线程之间的协调时非常有用，比如在共享内存中读写数据之前。

第二章详解CUDA架构

2.1 CUDA架构的核心组件

CUDA架构是NVIDIA GPU的并行计算基础，其核心组件包括硬件和软件两部分，共同支撑高性能并行计算。

2.1.1 流式多处理器（Streaming Multiprocessor, SM）

SM是GPU的核心计算单元，每个SM包含多个CUDA核心（CUDA Cores），负责执行线程。SM的架构设计直接影响CUDA程序的性能。以下是SM的关键特性：

CUDA Core（CUDA核心）：执行浮点运算和整数运算的基本单元。例如，最新的Blackwell架构的B200 GPU拥有2080亿个晶体管，每个SM包含数百个CUDA Core。
线程调度：SM通过warp（线程组）管理线程。一个warp通常由32个线程组成（在NVIDIA架构中），这些线程并行执行相同的指令（SIMT模型），但作用于不同的数据。
资源分配：每个SM包含寄存器、共享内存（Shared Memory）、L1/L2缓存等资源，这些资源的容量和分配策略直接影响线程的执行效率。

2.1.2 内存层次结构

CUDA的内存层次结构分为多层，每层的访问速度和容量不同，开发者需根据需求合理使用：

内存类型	访问速度	容量	用途
寄存器（Registers）	极快	线程私有	临时变量，访问延迟最低，需合理分配以避免溢出。
共享内存（Shared Memory）	快	块内共享	块内线程协作，减少全局内存访问（如矩阵乘法中的Tile方法）。
L1/L2缓存	快	小型缓存	加速对全局内存的访问，L1缓存位于SM内，L2缓存为全局共享。
全局内存（Global Memory）	较慢	大容量	存储所有线程可访问的数据，需通过优化访问模式（如内存合并）提升带宽。
常量内存（Constant Memory）	快	有限	存储只读数据，有独立缓存机制，适合共享不变的数据（如算法参数）。
纹理内存（Texture Memory）	快	有限	优化空间局部性访问（如图像处理），支持硬件缓存和过滤。

关键优化策略：

内存合并（Memory Coalescing）：线程块内线程按顺序访问连续的全局内存地址时，GPU会将这些访问合并为一个请求，显著提升带宽。例如，线程i访问A[i]时，若线程ID按顺序排列，访问会被合并。
Bank Conflict：共享内存访问时，若多个线程访问同一bank（共享内存的存储单元），会导致冲突。需通过数据对齐或访问模式调整避免。

2.2 CUDA线程模型与执行流程

CUDA的线程模型基于分层结构，开发者需明确线程、块、网格的组织方式，以最大化并行性。

2.2.1 线程层次结构

CUDA程序的线程分为三个层次：

Grid（网格）：由多个线程块（Blocks）组成，代表整个任务的范围。例如，计算一个矩阵的乘积时，每个线程块负责计算矩阵的一部分。
Block（线程块）：由多个线程（Threads）组成，是GPU调度的最小单位。块内的线程可以协作（如共享内存、同步）。
Thread（线程）：执行核函数的最小单位，每个线程有唯一的ID。

线程ID的计算：

int tid = blockIdx.x * blockDim.x + threadIdx.x; // 一维线程ID
int tid = (blockIdx.y * gridDim.x + blockIdx.x) * (blockDim.x * blockDim.y) + 
          threadIdx.y * blockDim.x + threadIdx.x; // 二维线程ID

2.2.2 SIMT执行模型

CUDA采用**单指令多线程（SIMT）**架构，其核心思想是：

Warp级并行：每个warp（32线程）同时执行同一指令，但作用于不同数据（数据并行）。
指令分发：SM的调度器将warp的指令分发到CUDA Core，最大化硬件利用率。
分支处理：若warp内线程执行不同分支（如if-else），会串行化执行所有分支，导致性能下降（称为Warp Divergence）。需尽量减少分支或确保线程路径一致。

2.2.3 同步与通信

块内同步：通过__syncthreads()确保所有线程到达该点后再继续执行。例如：

__global__ void kernel() {
    sharedMem[threadIdx.x] = computeValue();
    __syncthreads(); // 确保所有线程完成写入后再读取
    result[threadIdx.x] = computeWithSharedMem();
}

块间通信：通过全局内存或原子操作（如atomicAdd）实现。例如：

__global__ void reduce(int* input, int* output) {
    int sum = 0;
    for (int i = threadIdx.x; i < N; i += blockDim.x)
        sum += input[i];
    atomicAdd(output, sum); // 块间累加结果
}

2.3 CUDA编程模型与流程

CUDA编程的核心流程分为以下步骤，需结合硬件架构优化：

2.3.1 核函数（Kernel）设计

核函数是CUDA程序的核心，需遵循以下原则：

并行粒度：确保每个线程执行足够多的计算，避免“细粒度”任务（如每个线程只执行简单加法）。
资源限制：每个SM的寄存器、共享内存容量有限，需避免因资源不足导致线程块被阻塞。
线程块配置：选择合适的块尺寸（如256或512线程）以最大化SM利用率。

2.3.2 内存管理

主机与设备内存分配：

// 主机内存（Host）
float* h_data = (float*)malloc(N * sizeof(float));

// 设备内存（Device）
float* d_data;
cudaMalloc(&d_data, N * sizeof(float));

数据传输优化：
- 使用异步传输（cudaMemcpyAsync）与**流（Stream）**并行执行计算和传输。
- 通过** pinned memory**（cudaHostAlloc）减少CPU-GPU传输延迟。

2.3.3 并行执行配置

网格与块维度：

dim3 blockSize(256, 1);
dim3 gridSize((N + blockSize.x - 1) / blockSize.x, 1);
kernel<<>>(d_data);

多维计算：对于二维数据（如图像），可使用二维块和网格：

dim3 blockSize(16, 16);
dim3 gridSize((width + 15)/16, (height + 15)/16);
kernel<<>>(d_image);

第三章 CUDA编程核心知识点和编程实践

3.1 核心知识点详解

3.1.1 内存层次结构与优化策略

CUDA的内存层次结构是性能优化的核心，需结合不同内存类型的特点设计代码：

全局内存（Global Memory）
- 特点：容量大（可达数十GB），但访问延迟高（约几百个时钟周期）。
- 优化策略：
  - 内存合并（Memory Coalescing）：确保线程块内线程按顺序访问连续的全局内存地址。例如，线程i访问A[i]时，若线程ID连续，访问会被合并为一个请求。

__global__ void vectorAdd(float* A, float* B, float* C, int N) {
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    if (i < N) C[i] = A[i] + B[i]; // 合并访问：线程i访问连续地址
}

- - 数据对齐：确保数据按128-bit边界对齐（如使用__align__或cudaMalloc自动对齐）。
共享内存（Shared Memory）
- 特点：块内线程共享，访问速度极快（约10-30时钟周期），但容量有限（通常每个SM 96KB）。
- 典型应用：减少全局内存访问次数，如矩阵乘法的Tile方法：

__global__ void matrixMulShared(float* A, float* B, float* C, int N) {
    __shared__ float tileA[TILE_WIDTH][TILE_WIDTH];
    __shared__ float tileB[TILE_WIDTH][TILE_WIDTH];
    // 加载数据到共享内存，后续计算基于共享内存
    ...
}

- 资源限制：需控制共享内存的使用量。例如，若每个线程块使用4KB共享内存，而SM的共享内存总量为96KB，则最多可同时驻留24个块。
纹理内存（Texture Memory）
- 特点：只读，带有硬件缓存，适用于具有空间局部性的数据（如图像处理）。
- 使用示例：

// 绑定数据到纹理对象
cudaArray* cuArray;
cudaMallocArray(&cuArray, &channelDesc, width, height);
cudaMemcpyToArray(cuArray, 0, 0, h_data, size, cudaMemcpyHostToDevice);
cudaBindTextureToArray(texRef, cuArray, channelDesc);

// 核函数中访问纹理内存
__global__ void textureKernel(...) {
    float value = tex2D(texRef, x, y); // 纹理拾取
    ...
}

常量内存（Constant Memory）

特点：只读，独立缓存，适合存储不变的参数（如算法常数）。
示例

__constant__ float constData[1024]; // 设备端常量内存
cudaMemcpyToSymbol(constData, h_constData, size); // 主机到设备

3.1.2 线程模型与并行规模

线程索引与ID计算
一维线程

int tid = blockIdx.x * blockDim.x + threadIdx.x;

二维线程：

int x = blockIdx.x * blockDim.x + threadIdx.x;
int y = blockIdx.y * blockDim.y + threadIdx.y;

并行规模与SM资源限制
- SM驻留线程数：每个SM的理论最大线程数由其资源（寄存器、共享内存）决定。例如，若SM有64KB共享内存，且每个线程块需4KB共享内存，则最多可驻留16个块。
- 优化策略：
  - 调整线程块大小：选择与SM资源匹配的块大小（如256或512线程）。
  - 减少资源占用：避免过度使用共享内存或寄存器，防止SM因资源不足而减少驻留线程数。

3.1.3 核函数设计与算术强度

算术强度（Arithmetic Intensity）
- 定义：计算操作时间与访存操作时间的比值。高算术强度意味着更少的访存开销，适合GPU加速。
- 提升方法：
  - 复用数据：通过共享内存缓存数据，减少全局内存访问（如矩阵乘法的Tile方法）。
  - 减少分支：避免条件判断导致的Warp Divergence。
核函数设计原则
- 细粒度计算：确保每个线程执行足够多的计算，避免“细粒度”任务（如每个线程仅执行简单加法）。
- 避免冲突：共享内存访问需对齐到bank边界，防止bank冲突。

3.1.4 流（Stream）与异步执行

流的定义与作用
- 流：GPU操作的队列，允许多流并行执行，提升设备利用率。
- 特性：
  - 同一流内操作按FIFO顺序执行。
  - 不同流的操作可重叠，例如一边计算一边传输数据。

2. 流的使用示例

// 创建三个流
cudaStream_t stream0, stream1, stream2;
cudaStreamCreate(&stream0);
cudaStreamCreate(&stream1);
cudaStreamCreate(&stream2);

// 异步数据传输与计算
cudaMemcpyAsync(d_A, h_A, size, cudaMemcpyHostToDevice, stream0);
kernel<<>>(d_A, d_B);
cudaMemcpyAsync(h_C, d_C, size, cudaMemcpyDeviceToHost, stream2);

// 等待所有流完成
cudaStreamSynchronize(stream0);
cudaStreamSynchronize(stream1);
cudaStreamSynchronize(stream2);

3.2 编程实践与案例

3.2.1 向量加法优化

__global__ void vectorAdd(float* A, float* B, float* C, int N) {
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    if (i < N) C[i] = A[i] + B[i];
}

// 主机代码
int main() {
    int N = 1<<20; // 1M元素
    float* d_A, *d_B, *d_C;
    cudaMalloc(&d_A, N * sizeof(float));
    // ... 初始化数据 ...
    
    int blockSize = 256;
    int gridSize = (N + blockSize - 1) / blockSize;
    vectorAdd<<>>(d_A, d_B, d_C, N);
    cudaDeviceSynchronize();
    // ... 回收资源 ...
}

3.2.2 矩阵乘法（共享内存优化）

#define TILE_WIDTH 16
__global__ void matrixMulShared(float* A, float* B, float* C, int N) {
    __shared__ float s_A[TILE_WIDTH][TILE_WIDTH];
    __shared__ float s_B[TILE_WIDTH][TILE_WIDTH];
    
    int bx = blockIdx.x, by = blockIdx.y;
    int tx = threadIdx.x, ty = threadIdx.y;
    int Row = by * TILE_WIDTH + ty;
    int Col = bx * TILE_WIDTH + tx;
    float sum = 0;
    
    for (int m = 0; m < (N + TILE_WIDTH - 1)/TILE_WIDTH; m++) {
        // 加载数据到共享内存
        if (Row < N && (m*TILE_WIDTH + tx) < N)
            s_A[ty][tx] = A[Row * N + m*TILE_WIDTH + tx];
        else s_A[ty][tx] = 0;
        if ((m*TILE_WIDTH + ty) < N && Col < N)
            s_B[ty][tx] = B[(m*TILE_WIDTH + ty)*N + Col];
        else s_B[ty][tx] = 0;
        __syncthreads();
        
        // 计算部分内积
        for (int k = 0; k < TILE_WIDTH; k++)
            sum += s_A[ty][k] * s_B[k][tx];
        __syncthreads();
    }
    if (Row < N && Col < N)
        C[Row * N + Col] = sum;
}

3.2.3 纹理内存加速图像处理

texture texRef; // 定义纹理对象

__global__ void blurKernel(float* out, int width, int height) {
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;
    if (x < width && y < height) {
        float sum = 0;
        for (int dx = -1; dx <= 1; dx++) {
            for (int dy = -1; dy <= 1; dy++) {
                sum += tex2D(texRef, x+dx, y+dy); // 纹理拾取
            }
        }
        out[y * width + x] = sum / 9.0f;
    }
}

// 主机代码
cudaArray* cuArray;
cudaMallocArray(&cuArray, &channelDesc, width, height);
cudaMemcpyToArray(cuArray, 0, 0, h_data, size, cudaMemcpyHostToDevice);
cudaBindTextureToArray(texRef, cuArray, channelDesc);

3.3 性能调优技巧

3.3.1 内存优化

减少全局内存带宽压力：
- 使用共享内存缓存频繁访问的数据。
- 通过循环展开复用数据：

for (int i = 0; i < N; i += 4) {
    sum += A[i] + A[i+1] + A[i+2] + A[i+3];
}

L2缓存利用：确保数据访问具有空间或时间局部性。

3.3.2 线程配置优化

线程块尺寸选择：
- 根据SM资源选择块大小（如256或512线程）。
- 使用cudaOccupancyMaxPotentialBlockSize计算最优块大小。
网格粒度：确保网格足够大以充分利用所有SM。

3.3.3 算法适配

SIMD指令：利用CUDA内置函数（如__shfl_sync）实现线程块内数据共享。
分支优化：避免条件判断，或确保同一warp内线程执行相同分支。

3.4 错误检测与调试

运行时错误检查

#define cudaCheckError() { \
    cudaError_t e = cudaGetLastError(); \
    if (e != cudaSuccess) { \
        printf("CUDA Error: %s\n", cudaGetErrorString(e)); \
        exit(-1); \
    } \
}
// 在关键API调用后检查错误：
cudaMalloc(&d_A, size); cudaCheckError();

CUDA-MEMCHECK工具

检测内存越界访问、未初始化内存等：

cuda-memcheck --leak-check full ./your_program

3.5 最新架构特性与实践

3.5.1 Blackwell架构优化

FP4数据格式：适用于大语言模型（LLM）推理，减少显存占用。
多芯片封装（MCM）：通过高速互联（10TB/s）提升计算密度，需设计分布式计算任务。

3.5.2 CUDA Graphs

静态计算图：将计算流程编译为图，减少API调用开销

cudaGraph_t graph;
cudaGraphExec_t graphExec;
// 创建图并捕获操作
cudaStreamBeginCapture(stream, cudaStreamCaptureModeGlobal);
kernel<<<...>>>(...);
cudaMemcpyAsync(...);
cudaStreamEndCapture(stream, &graph);
// 执行图
cudaGraphLaunch(graphExec, stream);

你可能感兴趣的:(算法面试,人工智能,c++,算法,nvidia,cuda编程)

day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
Effective C++ 条款10：令operator=返回一个reference to *this 君鼎 C++c++
EffectiveC++条款10：令operator=返回一个referenceto*this核心思想：赋值操作符（operator=）应始终返回当前对象的引用（*this），以实现连锁赋值并保持与内置类型一致的语义。⚠️1.问题场景：违反连锁赋值语义classWidget{public:voidoperator=(constWidget&rhs){//错误：返回voidvalue=rhs.val
C++ ：vector的模拟诚自然成 c++开发语言
目录一、vector的迭代器二、vector的构造函数默认构造函数参数构造函数迭代器范围构造函数拷贝构造函数swap:交换vector重载赋值符析构函数reserve:扩容vectorresize:调整大小push_back:添加元素empty:判空pop_back:后删获取大小与容量：size(),capacity()重载operator[]：元素访问insert：插入元素erase:删除一个元
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
C++编程基础与面向对象概念解析侯昂面向对象编程 C++语法函数类与对象继承与多态性
C++编程基础与面向对象概念解析背景简介C++是一种广泛使用的面向对象编程语言，它允许开发者创建高效、灵活且功能强大的程序。本文基于《C++Primer》一书的章节内容，深入解析C++的核心概念和面向对象编程原则，旨在帮助读者构建扎实的C++编程基础。面向对象编程的原则软件危机与进化介绍了软件危机的产生和软件进化的必要性，强调了面向对象编程（OOP）在应对这些问题中的优势。面向对象编程范式讨论了面
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
量子计算解决气候变化：科学家找到了新方法大力出奇迹985 量子计算
气候变化已成为全球面临的严峻挑战，传统计算方法在应对与之相关的复杂问题时存在诸多局限。而量子计算作为新兴技术，为解决气候变化难题带来曙光。本文深入剖析科学家利用量子计算应对气候变化的新方法。量子计算凭借独特的量子比特与量子特性，在加速气候模型计算、优化模型参数、预测极端天气事件等方面展现出巨大优势。同时，在可再生能源整合、电网管理、碳捕获等实际应用场景中也发挥着重要作用。尽管目前面临硬件和算法等方
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
算法刷题-动态规划之背包问题
1.背包问题之01（4.30）题目描述小明有一个容量为VV的背包。这天他去商场购物，商场一共有NN件物品，第ii件物品的体积为wiwi，价值为vivi。小明想知道在购买的物品总体积不超过VV的情况下所能获得的最大价值为多少，请你帮他算算。输入描述输入第11行包含两个正整数N,VN,V，表示商场物品的数量和小明的背包容量。第2∼N+12∼N+1行包含22个正整数w,vw,v，表示物品的体积和价值。1
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
C++中std::variant的使用详解和实战代码示例点云SLAM C++c++开发语言 variant C++泛型编程联合体 C++类型擦除机制 C++17
std::variant是C++17引入的一个类型安全的联合体（type-safeunion），它可以在多个类型之间存储一个值，并在编译时进行类型检查。它是现代C++类型擦除与泛型编程的核心工具之一，适用于构建可变类型结构、消息传递系统、状态机等。一、基本概念#includestd::variantv;类似于联合体union，但类型安全。std::variant只能存储其中一个类型的值。默认构造时
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu