sandiWang

SSH远程登陆Linux Server运行cuda程序

一远程登录Linux Server运行CUDA程序（摘自国科大刘莹老师给的指南）

1 Window系统下
* 下载SSHSecureShellClient-3.2.9.exe
* 安装SSH：默认在每一步均选next
* 安装生成桌面文件：
SSH Secure Shell Client：客户端登录程序
SSH Secure File Transfer Client：文件上传下载程序
* 登录Linux Server
1) 单击Connect(或Quick Connect)
2) 输入Host Name、User Name
3) 输入Password

* 退出
输入"exit"(或点击Disconnect)

2 使用SSH Secure File Transfer Client传输源程序

3 使用CUDA编译运行程序
* 认识CUDA编译器nvcc：man nvcc
* 四种模式的编译：
Release Mode: CUDA kernel 在真正的GPU上运行
命令示例：nvcc -o executable …
Debug Mode: CUDA kernel 在GPU上运行但不可调试，CPU部分代码可以调试
命令示例：nvcc -g …

* 使用-keep命令选项保存中间生成文件：nvcc -keep .cu
* 使用-clean命令选项清除相应命令生成的所有文件： nvcc -keep .cu -clean
* nvcc其他常用命令选项有：-o(指定输出可执行文件名)、-D(定义宏)、-I(指定头文件搜索路径)、-include(指定包含的头文件)、-L(指定库文件搜索路径)、-l(指定链接使用的库文件)、-host-compilation(指定以C或C++语言编译CPU部分代码)-Xptxas –v(查看kernel的register、shared memory、 local memory使用情况)
详细说明请参阅nvidia提供的nvcc手册或man命令。
* 程序执行：在包含编译生成的可执行文件目录下输入：./

4 Linux系统下远程登录Linux Server
* 检查系统是否安装有SSH：(或man ssh)
rpm -qa | grep ssh
cd ~
more install.log
查找ssh
* 终端登录Linux Server
1)输入用户名和IP地址：ssh username@*.*.*.*
2)输入password
* 正常终端命令行操作
* 退出
输入"exit"

5 Linux系统下使用scp命令传输文件
* 退出ssh或切换到另一个新的终端
* 复制文件到远程主机：
输入scp命令：
scp /localfile remote_username@remote_host_ip://
按提示输入远程server上的用户密码：
remote_username@remote_host_ip's password: *******
* 从远程主机下载文件：
输入scp命令：
scp remote_username@remote_host_ip://remote_file /
按提示输入远程server上的用户密码：

remote_username@remote_host_ip's password: *******

二运行cuda程序

1 获取硬件平台设备属性

CPU properties：cat /proc/cpuinfo

Memory properties: cat /proc/meminfo

GPUproperties:

nvcc devicepro.cu

./a.out

其中获取GPUproperties需要编写代码获取结构体cudaDeviceProp的信息。代码如下，保存为*.cu运行即可。

#include 
#include 
using namespace std;

int main()
{
	cudaDeviceProp prop;

	int count;
	cudaGetDeviceCount(&count);

	for(int i = 0 ; i < count ; i++)
	{
		cudaGetDeviceProperties(&prop,i);
		cout<<"the information for the device : "<

 
  ---------------------------------------------------------------------------------------------------------------------------------------- 
  main GPU properties(# nvcc devicepro.cu # ./a.out)
 name:Tesla K10.G2.8GB
 total global memory:3757637632
 total constant memory:65536
 shared Memory Per Block:49152
 register Per Block:65536
 threads in warps:32
 max threads per block:1024
 max threads dims:1024 1024 64
 max grid dims:2147483647 65535 65535
 number of Processors: 8
 
  -----------------------------------------------------------------------------------------------------------------------------------------
 
  2 简单的cuda程序之ReverseArray（dimA= 256 * 1024, numThreadsPerBlock = 256） 
   
  2.1 dimGrid(1024);dimBlock(256); no sharedmemory; 
   
  // includes, system
#include 
#include 
#include 
#include "cuda_runtime.h"

using namespace std;

// Simple utility function to check for CUDA runtime errors
void checkCUDAError(const char* msg);

// Part 2 of 2: implement the kernel
__global__ void reverseArrayBlock(int *d_out, int *d_in, int dimA)
{ 

    int tid = blockIdx.x*256 + threadIdx.x;

    d_out[dimA-tid-1] = d_in[tid];

}

////////////////////////////////////////////////////////////////////////////////
// Program main
////////////////////////////////////////////////////////////////////////////////
int main( int argc, char** argv) 
{
	  cudaEvent_t timeStartEvent,timeEndEvent;
	  cudaEventCreate( &timeStartEvent, 0);
	  cudaEventCreate(&timeEndEvent, 0);
	  cudaEventRecord( timeStartEvent, 0);
	  
    // pointer for host memory and size
    int *h_a;
    int dimA = 256 * 1024; // 256K elements (1MB total)

    // pointer for device memory
    int *d_b, *d_a;

    // define grid and block size
    int numThreadsPerBlock = 256;

    // Compute number of blocks needed based on array size and desired block size
    int numBlocks = dimA / numThreadsPerBlock;  

    // Part 1 of 2: Compute the number of bytes of shared memory needed
    // This is used in the kernel invocation below
 //   int sharedMemSize = numThreadsPerBlock*sizeof(int);

    // allocate host and device memory
    size_t memSize = numBlocks * numThreadsPerBlock * sizeof(int);
    h_a = (int *) malloc(memSize);
    cudaMalloc( (void **) &d_a, memSize );
    cudaMalloc( (void **) &d_b, memSize );

    // Initialize input array on host
    for (int i = 0; i < dimA; ++i)
    {
        h_a[i] = i;
    }

    // Copy host array to device array
    cudaMemcpy( d_a, h_a, memSize, cudaMemcpyHostToDevice );

    // launch kernel
    dim3 dimGrid(numBlocks);
    dim3 dimBlock(numThreadsPerBlock);
    reverseArrayBlock<<< dimGrid, dimBlock >>>( d_b, d_a ,dimA);

    // block until the device has completed
    cudaThreadSynchronize();

    // check if kernel execution generated an error
    // Check for any CUDA errors
    checkCUDAError("kernel invocation");
    
    // device to host copy
    cudaMemcpy( h_a, d_b, memSize, cudaMemcpyDeviceToHost );
    

    // Check for any CUDA errors
    checkCUDAError("memcpy");

     
    // verify the data returned to the host is correct
    for (int i = 0; i < dimA; i++)
    {
        assert(h_a[i] == dimA - 1 - i );
    }

    // free device memory
    cudaFree(d_a);
    cudaFree(d_b);

    // free host memory
    free(h_a);

    // If the program makes it this far, then the results are correct and
    // there are no run-time errors.  Good work!
    printf("Correct!\n");
    
		cudaEventRecord( timeEndEvent, 0) ;
		cudaEventSynchronize( timeEndEvent ) ;
		float elapsedTime = 0 ;
		cudaEventElapsedTime( & elapsedTime, timeStartEvent, timeEndEvent ) ;
		 
		cout << "elapsedTime  " << elapsedTime << " ms. ";
		cudaEventDestroy( timeStartEvent ) ;
		cudaEventDestroy( timeEndEvent ) ;

    return 0;
}

void checkCUDAError(const char *msg)
{
    cudaError_t err = cudaGetLastError();
    if( cudaSuccess != err) 
    {
        fprintf(stderr, "Cuda error: %s: %s.\n", msg, cudaGetErrorString( err) );
        exit(EXIT_FAILURE);
    }                         
}

//runing time 4.03104ms
 
   
  2.2 dimGrid(1024); dimBlock(256); sharedMemSize = 256*sizeof(int); 
   
  // includes, system
#include 
#include 
#include 
#include "cuda_runtime.h"

using namespace std;

// Simple utility function to check for CUDA runtime errors
void checkCUDAError(const char* msg);

// Part 2 of 2: implement the kernel
__global__ void reverseArrayBlock(int *d_out, int *d_in, int dimA)
{ 
    int tid = blockIdx.x*256 + threadIdx.x;
    __shared__ int Arr[256];
    Arr[threadIdx.x] = d_in[tid];
		__syncthreads();
    d_out[dimA-tid-1] = Arr[threadIdx.x];

}

////////////////////////////////////////////////////////////////////////////////
// Program main
////////////////////////////////////////////////////////////////////////////////
int main( int argc, char** argv) 
{
	  cudaEvent_t timeStartEvent,timeEndEvent;
	  cudaEventCreate( &timeStartEvent, 0);
	  cudaEventCreate(&timeEndEvent, 0);
	  cudaEventRecord( timeStartEvent, 0);
	  
    // pointer for host memory and size
    int *h_a;
    int dimA = 256 * 1024; // 256K elements (1MB total)

    // pointer for device memory
    int *d_b, *d_a;

    // define grid and block size
    int numThreadsPerBlock = 256;

    // Compute number of blocks needed based on array size and desired block size
    int numBlocks = dimA / numThreadsPerBlock;  

    // Part 1 of 2: Compute the number of bytes of shared memory needed
    // This is used in the kernel invocation below
    int sharedMemSize = numThreadsPerBlock*sizeof(int);

    // allocate host and device memory
    size_t memSize = numBlocks * numThreadsPerBlock * sizeof(int);
    h_a = (int *) malloc(memSize);
    cudaMalloc( (void **) &d_a, memSize );
    cudaMalloc( (void **) &d_b, memSize );

    // Initialize input array on host
    for (int i = 0; i < dimA; ++i)
    {
        h_a[i] = i;
    }

    // Copy host array to device array
    cudaMemcpy( d_a, h_a, memSize, cudaMemcpyHostToDevice );

    // launch kernel
    dim3 dimGrid(numBlocks);
    dim3 dimBlock(numThreadsPerBlock);
    reverseArrayBlock<<< dimGrid, dimBlock, sharedMemSize >>>( d_b, d_a ,dimA);

    // block until the device has completed
    cudaThreadSynchronize();

    // check if kernel execution generated an error
    // Check for any CUDA errors
    checkCUDAError("kernel invocation");
    
    // device to host copy
    cudaMemcpy( h_a, d_b, memSize, cudaMemcpyDeviceToHost );
    

    // Check for any CUDA errors
    checkCUDAError("memcpy");

     
    // verify the data returned to the host is correct
    for (int i = 0; i < dimA; i++)
    {
        assert(h_a[i] == dimA - 1 - i );
    }

    // free device memory
    cudaFree(d_a);
    cudaFree(d_b);

    // free host memory
    free(h_a);

    // If the program makes it this far, then the results are correct and
    // there are no run-time errors.  Good work!
    printf("Correct!\n");
    
		cudaEventRecord( timeEndEvent, 0) ;
		cudaEventSynchronize( timeEndEvent ) ;
		float elapsedTime = 0 ;
		cudaEventElapsedTime( & elapsedTime, timeStartEvent, timeEndEvent ) ;
		 
		cout << "elapsedTime  " << elapsedTime << " ms. ";
		cudaEventDestroy( timeStartEvent ) ;
		cudaEventDestroy( timeEndEvent ) ;

    return 0;
}

void checkCUDAError(const char *msg)
{
    cudaError_t err = cudaGetLastError();
    if( cudaSuccess != err) 
    {
        fprintf(stderr, "Cuda error: %s: %s.\n", msg, cudaGetErrorString( err) );
        exit(EXIT_FAILURE);
    }                         
}


//runing time 3.99392ms. 
  
 
   
  3 简单的cuda程序之ParallelAdd（N(2048*2048), THREADS_PER_BLOCK 512）
 
  3.1 dimGrid(32,64); dimBlock(16, 32); no sharedmemory; 
   
  #include 
#include 
#include 
#define N (2048*2048)
#define THREADS_PER_BLOCK 512  //16*32

using namespace std;
// Simple utility function to check for CUDA runtime errors
void checkCUDAError(const char* msg);

//Please implement the kernel function Add().
__global__ void add(int* dev_a, int* dev_b, int* dev_c)
{
    int tid = threadIdx.y*32 + threadIdx.x;
		int bid = blockIdx.y*64 + blockIdx.x;	
		
		dev_c[bid*512+tid] = dev_a[bid*512+tid] + dev_b[bid*512+tid];
}	
int main( void ) {
cudaEvent_t timeStartEvent,timeEndEvent;
cudaEventCreate( &timeStartEvent, 0);
cudaEventCreate(&timeEndEvent, 0);
cudaEventRecord( timeStartEvent, 0);

int *a, *b, *c; // host copies of a, b, c
int *dev_a, *dev_b, *dev_c; // device copies of a, b, c
int size = N * sizeof( int); // we need space for N integers
// allocate device copies of a, b, c
cudaMalloc( (void**)&dev_a, size );
cudaMalloc( (void**)&dev_b, size );
cudaMalloc( (void**)&dev_c, size );
a = (int*)malloc( size );
b = (int*)malloc( size );
c = (int*)malloc( size );


for (int i = 0; i < N; ++i){
    a[i] = rand();
    b[i] = rand();
}

//random_ints( a, N );
//random_ints( b, N );
// copy inputs to device
cudaMemcpy( dev_a, a, size, cudaMemcpyHostToDevice);
cudaMemcpy( dev_b, b, size, cudaMemcpyHostToDevice);
// launch add() kernel with blocks and threads
dim3 dimGrid(32, 64);
dim3 dimBlock(16, 32);
add<<< N/THREADS_PER_BLOCK, THREADS_PER_BLOCK >>>( dev_a, dev_b, dev_c);
//add<<< dimGrid, dimBlock >>>( dev_a, dev_b, dev_c);
// copy device result back to host copy of c

// check if kernel execution generated an error
    // Check for any CUDA errors
    checkCUDAError("kernel invocation");
    
cudaMemcpy( c, dev_c, size, cudaMemcpyDeviceToHost);

 // Check for any CUDA errors
    checkCUDAError("memcpy");
free( a ); free( b ); free( c );
cudaFree( dev_a);
cudaFree( dev_b);
cudaFree( dev_c);

// If the program makes it this far, then the results are correct and
    // there are no run-time errors.  Good work!
    printf("Correct!\n");
    
		cudaEventRecord( timeEndEvent, 0) ;
		cudaEventSynchronize( timeEndEvent ) ;
		float elapsedTime = 0 ;
		cudaEventElapsedTime( & elapsedTime, timeStartEvent, timeEndEvent ) ;
		 
		cout << "elapsedTime  " << elapsedTime << " ms. ";
		cudaEventDestroy( timeStartEvent ) ;
		cudaEventDestroy( timeEndEvent ) ;
		
return 0;
}

void checkCUDAError(const char *msg)
{
    cudaError_t err = cudaGetLastError();
    if( cudaSuccess != err) 
    {
        fprintf(stderr, "Cuda error: %s: %s.\n", msg, cudaGetErrorString( err) );
        exit(EXIT_FAILURE);
    }                         
}

//237.658ms 
  
 
   
  3.2 dimGrid(32,64); dimBlock(16, 32); sharedMemSize = 16*32*sizeof(int);
 
   
  #include 
#include 
#include 
#define N (2048*2048)
#define THREADS_PER_BLOCK 512  //16*32

using namespace std;
// Simple utility function to check for CUDA runtime errors
void checkCUDAError(const char* msg);

//Please implement the kernel function Add().
__global__ void add(int* dev_a, int* dev_b, int* dev_c)
{
		int tid = threadIdx.y*32 + threadIdx.x;
		int bid = blockIdx.y*64 + blockIdx.x;		
		
		__shared__ int A[16][32];
		__shared__ int B[16][32];
		
		A[threadIdx.y][threadIdx.x] = dev_a[bid*512+tid];
		B[threadIdx.y][threadIdx.x] = dev_b[bid*512+tid];
		
		__syncthreads();
		
		dev_c[bid*512+tid] = A[threadIdx.y][threadIdx.x] + B[threadIdx.y][threadIdx.x];

}	
int main( void ) {
cudaEvent_t timeStartEvent,timeEndEvent;
cudaEventCreate( &timeStartEvent, 0);
cudaEventCreate(&timeEndEvent, 0);
cudaEventRecord( timeStartEvent, 0);

int *a, *b, *c; // host copies of a, b, c
int *dev_a, *dev_b, *dev_c; // device copies of a, b, c
int size = N * sizeof( int); // we need space for N integers
// allocate device copies of a, b, c
cudaMalloc( (void**)&dev_a, size );
cudaMalloc( (void**)&dev_b, size );
cudaMalloc( (void**)&dev_c, size );
a = (int*)malloc( size );
b = (int*)malloc( size );
c = (int*)malloc( size );


for (int i = 0; i < N; ++i){
    a[i] = rand();
    b[i] = rand();
}

//random_ints( a, N );
//random_ints( b, N );
// copy inputs to device
cudaMemcpy( dev_a, a, size, cudaMemcpyHostToDevice);
cudaMemcpy( dev_b, b, size, cudaMemcpyHostToDevice);
// launch add() kernel with blocks and threads
dim3 dimGrid(32, 64);
dim3 dimBlock(16, 32);
int sharesize = 16*32*sizeof(int);
add<<< N/THREADS_PER_BLOCK, THREADS_PER_BLOCK, sharesize >>>( dev_a, dev_b, dev_c);
//add<<< dimGrid, dimBlock >>>( dev_a, dev_b, dev_c);
// copy device result back to host copy of c

// check if kernel execution generated an error
// Check for any CUDA errors
checkCUDAError("kernel invocation");
    
cudaMemcpy( c, dev_c, size, cudaMemcpyDeviceToHost);

// Check for any CUDA errors
checkCUDAError("memcpy");
/*
// verify the data returned to the host is correct
for (int i = 0; i < N; i++)
{
    assert(c[i] == a[i]+b[i] );
}*/

free( a ); free( b ); free( c );
cudaFree( dev_a);
cudaFree( dev_b);
cudaFree( dev_c);

// If the program makes it this far, then the results are correct and
    // there are no run-time errors.  Good work!
    printf("Correct!\n");
    
		cudaEventRecord( timeEndEvent, 0) ;
		cudaEventSynchronize( timeEndEvent ) ;
		float elapsedTime = 0 ;
		cudaEventElapsedTime( & elapsedTime, timeStartEvent, timeEndEvent ) ;
		 
		cout << "elapsedTime  " << elapsedTime << " ms. ";
		cudaEventDestroy( timeStartEvent ) ;
		cudaEventDestroy( timeEndEvent ) ;
		
return 0;
}

void checkCUDAError(const char *msg)
{
    cudaError_t err = cudaGetLastError();
    if( cudaSuccess != err) 
    {
        fprintf(stderr, "Cuda error: %s: %s.\n", msg, cudaGetErrorString( err) );
        exit(EXIT_FAILURE);
    }                         
}

// 235.297ms 
  
 4 分析 
   
  kernel中share memory 可以适当取大一点，一个SM不超过16KB即可。 
  ReverseArray中，The size of array A is 256*1024 which issmaller than the maximun threads per grid can hold which is 1024*65535. Therefore,we can start 256*1024 threads, one for a single element in A. 
  We use 256 threads per block as suggested. Inthis way, one SM can hold 3 blocks which is 768 threads. 
  According to the GPU run time on differentdimGrid and dimBlock, we can conclude that GPU run time has nothing to do withthe shape and dimension of Grid and Block. Moreover, data in shared memory isnot overused in this case, so GPU run time is not decreased when we use sharedmemory. 
  Becauseof the small amount of data , cuda do not show the superiority over CPU. 
  5 参考资料 
  NVIDIA CUDA: http://www.nvidia.cn/object/cuda-cn.html
 
  cuda检验执行时间：http://www.cnblogs.com/lopezycj/archive/2011/08/09/cuda_time.html 
  通过cuda的sdk学习makefile: http://www.cnblogs.com/FreeAquar/archive/2012/04/03/2430860.html
 
  linux下命令行gdb调试命令：http://blog.csdn.net/dadalan/article/details/3758025

英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
PaddleOCR 快速开始张欣-男 PaddlePaddle PaddleOCR OCR
1.安装1.1安装PaddlePaddle#GPUcudapipinstallpaddlepaddle-gpu#CPUpipinstallpaddlepaddle1.2安装PaddleOCRwhl包pipinstallpaddleocr2.便捷使用2.1命令行使用2.1.1中英文模型检测+方向分类器+识别全流程：–use_angle_clstrue设置使用方向分类器识别180度旋转文字，–use_
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
LLaMA-Factory微调教程1：LLaMA-Factory安装及使用 Cachel wood LLM和AIGC llama python 开发语言 react.js javascript 前端 microsoft
文章目录环境搭建LLaMA-Factory安装教程模型大小选择环境搭建Windows系统RTX4060Ti（16G显存）python3.10cuda=12.6cudnntorch==2.7.1+cu126torchvision==0.22.1+cu126torchaudio==2.7.1+cu126PSC:\Users\18098>nvidia-smiTueJul2201:52:192025+<
利用Gpu训练兮℡檬，深度学习人工智能
方法一：分别对网络模型，数据（输入，标注），损失函数调用.cuda()网络模型：iftorch.cuda.is_available():net=net.cuda()数据（训练和测试）：iftorch.cuda.is_available():imgs=imgs.cuda()targets=targets.cuda()损失函数：iftorch.cuda.is_available():loss_fn=l
PyTorch武侠演义第一卷：初入江湖第7章：矿洞中的计算禁制空中湖 pytorch武侠演绎 pytorch 人工智能 python
第一卷：初入江湖第7章：矿洞中的计算禁制矿洞深处罗盘残件在接近矿洞时突然发热，指针疯狂旋转。"就是这里，"欧阳长老抚摸着洞壁上的计算图刻痕，“TensorFlow帮用静态图封印了矿脉。”林小码看到：幽蓝矿脉构成巨大的计算图结构水晶矿簇随呼吸节奏明灭（CUDA核心）矿道中流淌着数据光流（内存带宽）"小心！"大师突然拉回林小码。他刚才踩中的矿砖下陷，触发岩壁上的机关——数十道计算图锁链从四面八方射来！
数字人克隆中SyncTalk算法介绍与部署过程优秘智能UMI 人工智能 ubuntu
SyncTalk算法介绍SyncTalk合成同步的头部说话视频，采用三平面哈希表示来保持主体身份。它可以生成同步的嘴唇动作、面部表情和稳定的头部姿势，并恢复头发细节以创建高分辨率视频。部署在Linux中部署该项目，在Ubuntu18.04、Pytorch1.12.1和CUDA11.3上测试。gitclonehttps://github.com/ZiqiaoPeng/SyncTalk.gitcdSy
【MMCV】MMCV安装与踩坑 Elendill Pyhton pytorch python mmcv
确认MMCV版本首先确认项目所需MMCV的版本是多少mmcv2.0版本的代码相比较于=2.0.0安装方法新创建一个conda环境安装pytorch：condainstallpytorchtorchvisiontorchaudiopytorch-cuda=11.8-cpytorch-cnvidia安装mim，这是openmm官方推出的用于安装他们旗下mm系列产品的安装器：pipinstall-Uop
[mmcv系列] pip安装mmcv记录
文章目录1.查看torch和cuda版本1.安装1.1从预编译包安装1.2源码编译安装2.校验报错：frommmcvimportConfig可以直接参考教程：找到pip安装，选择自己的cuda和torch版本，复制指令到终端安装即可：1.查看torch和cuda版本终端运行指令：python-c'importtorch;print(torch.__version__);print(torch.ve
【代码问题】【包安装】MMCV Catching Star python
可以参考这篇博客【MMCV】MMCV安装与踩坑-CSDN博客MMCV对于版本要求非常严格。python最好是3.10或者3.9，而且torch和cuda版本一定要对应。比如我是cu118，就可以这样安装：#举例：torch2.1.0+cu118pipinstallmmcv-full==1.7.2\-fhttps://download.openmmlab.com/mmcv/dist/cu118/to
模型剪枝（分析） yc_hu 剪枝 python 机器学习
1.函数入口与设备初始化defget_layer_level_pruning_rate(args):device=torch.device("cuda"iftorch.cuda.is_available()else"cpu")功能：检测可用设备（优先使用GPU），为后续模型加载做准备。2.数据加载与评估函数定义train_loader,val_loader,test_loader,criterio
LLaMA-Factory快速入门 @BangBang LLM llama
文章目录1.背景2.环境准备2.1硬件要求2.2CUDA和Pytorch环境2.3模型下载2.4模型推理3.自定义数据集构建4.基于LoRA的sft指令微调4.1Lora微调训练4.2动态合并LoRA的推理4.3训练效果评估4.4LoRA模型合并导出5.webuiboard的使用5.1使用介绍5.2APIServer的启动与调用6进阶6.1大模型主流评测benchmark6.2部署Ollama1.
OpenCV Mat UMat GpuMat Matx HostMem InputArray等设计哲学我是李武涯 opencv 人工智能计算机视觉 c++
一、概览：GpuMat对应于cuda；HostMem可以看作是一种特殊的Mat，其存储对应cuda在主机分配的锁页内存，可以不经显示downloadupload自动转变成GpuMat（但是和GpuMat并无继承关系）；UMat对应于opencl的存储Matx指代常量Mat，编译时即确定：InputArray则是一种代理模式。注意，InputAray和MatUMatGpuMatMatx等无继承关系！
WSL2部署训练YOLOv11之环境配置（2025年4月19日）鱼圆食不食 YOLO
一、前言今天尝试在WSL2环境中部署训练YOLOv11，顺便把环境配置好。二、安装CUDA由于WSL2中并不能直接使用宿主机的显卡，所以需要安装CUDAonWSL以安装NVIDIA驱动到WSL中。注意必须是WSL2，WSL2对GPU的支持使这些应用程序能够受益于GPU加速计算，WSL1不支持。打开cmd或pwsh更新一下WSL内核：wsl.exe--update确保宿主机已安装最新的NVIDIAG
cuda编程python接口_使用Python写CUDA程序的方法 weixin_39822184 cuda编程python接口
使用Python写CUDA程序有两种方式：*Numba*PyCUDAnumbapro现在已经不推荐使用了，功能被拆分并分别被集成到accelerate和Numba了。例子numbaNumba通过及时编译机制(JIT)优化Python代码，Numba可以针对本机的硬件环境进行优化，同时支持CPU和GPU的优化，并且可以和Numpy集成，使Python代码可以在GPU上运行，只需在函数上方加上相关的指
Python成第四个支持CUDA的编程语言
Python成第四个支持CUDA的编程语言3月19日NVIDIA的GTC2013图形技术大会将开幕，在此之前会有很多宣传造势内容，其中最重大也是最主要的就是NVIDIA老总黄仁勋的开幕词了，其他合作伙伴也会发布各自的演讲。ContinuumAnalytics联合NVIDIA宣布将会引入新的PythonCUDA编译器——NumbaPro，Python也成为继C、C++以及Fortan之后的第四个支持
从 0 到 1 搞定nvidia 独显推流：硬件视频编码环境安装完整学习笔记 lxmyzzs 图像算法之音视频编解码音视频学习笔记
笔记用于安装和配置一套完整的媒体处理工具链，包括NVIDIA编码头文件、带CUDA加速的FFmpeg以及ZLMediaKit流媒体服务框架，适用于需要进行视频编解码、流媒体推流/拉流等场景的开发与部署。标题核心组件及版本说明nv-codec-headers来源：Gitee仓库jario-jin/nv-codec-headers版本：n11.1.5.0（对应NVIDIAVideoCodecSDK接口
【Python 语法】Python 神经网络项目常用语法一杯水果茶！人生苦短我用 Python python
基础1.导入模块和包2.修改系统路径(sys.path.append)3.命令行参数解析(argparse模块)4.assert确保正确性5.main()脚本入口点6.辅助函数生成器函数`cycle(dl)`一、常用函数1.`.cuda()`/`.cpu()`和`torch.device`2.`torch.zeros`、`torch.randn`、`torch.arrange`、`torch.po
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
数字图像处理与Python语言实现-Box模糊CUDA实现视觉与物联智能数字图像处理与Python实现 python 深度学习计算机视觉图像处理 CUDA
Box模糊CUDA实现文章目录Box模糊CUDA实现1、Box模糊的基本原理2、算法优化：滑动窗口技术3、参数对模糊效果的影响4、Box模糊的优缺点5、与高斯模糊的对比6、实际应用场景7、算法实现7.1PyCUDA实现7.2CuPy实现7.3C++与CUDA实现8、总结在图像处理领域，**Box模糊（方框模糊或均值模糊）**是一种基础且高效的模糊算法，其核心思想是通过对像素邻域内的颜色值取平均值来
2018 MacBook Pro 安装cuda+cuDNN+pytorch
2018MacBookPro安装cuda+cuDNN+pytorch根据CSDN上的两篇文章和知乎上的一篇文章，前前后后折腾了好几天，在一个小姐姐的帮助下终于装上了。我的环境系统版本：macOS10.13.6(17G10021)GPUDriverVersion:387.10.10.10.40.133CUDADriverVersion:410.130CUDA：cuda_10.0.130cuDNN：c
mac的m芯片上跑cuda程序 xinxuann macos
config里parser.add_argument('--device',type=str,default='mps')main里device=torch.device(cfg['device'])train里x_batch=x_batch.astype('float32')y_batch=y_batch.astype('float32')aux_batch=aux_batch.astype('
CUDA在不受支持的macOS系统上使用（BigSur） ilovefifa2020 macos github 经验分享大数据功能测试 python c++
CUDA与WebDriver在macOS系统上不是同一个东西，CUDA是一个图形库，用于使用GPU在某些软件中进行计算或渲染，只安装CUDA不能使Maxwell和Pascal核心显卡工作，必须同时安装WebDriver，其他核心（如Fermi、kepler)等可以在不安装WebDriver的情况下让CUDA工作。果粉众所周知，CUDA与WebDriver只能在支持的macOS系统HighSierr
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
autodl云计算平台使用ollama 部署lightrag 加入streamlit界面 42fourtytoo 云计算深度学习 pytorch 学习
1到autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU而只用CPU，后来换个镜像就好了2下载lightrag从lightrag的GitHub界面下载zip开机，上传zip，解压到autodl-tmp/lightrag下安装依赖，在文件夹下：pi
英伟达：要取代我？其实CUDA也支持RISC-V EEPW电子产品世界 risc-v
第五届RISC-V中国峰会于2025年7月16至19日在上海张江科学会堂隆重举办，在峰会的圆桌讨论中，主持人曾经提出这样一个问题：你认为RISC-V未来会取代GPU吗？在现场观众投票中，支持会取代的现场观众占据将近半数。不过在随后的主题演讲中，英伟达副总裁FransSijstermanns特别提到了英伟达在自家的计算平台实现了RISC-V应用处理器部署。在做这次演讲准备的时候，FransSijst
python3.9安装tensorflow-gpu 2.6.0和torch-gpu版本各依赖包的版本对应关系
首先使用的cuDNN（8.1）、CUDA（11.2）、tensorflow-gpu（2.6.0）、python（3.9）之间对应版本Window环境下安装pytorch下载地址tensorflow官网CUDA下载官网cuDNN下载官网注意：cuDNN需要注册absl-py0.15.0astunparse1.6.3cachetools5.3.2certifi2023.7.22charset-norm
深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
pytorch的学习笔记 wyn20001128 算法
一cuda 2006年，NVIDIA公司发布了CUDA(ComputeUnifiedDeviceArchitecture)，是一种新的操作GPU计算的硬件和软件架构，是建立在NVIDIA的GPUs上的一个通用并行计算平台和编程模型，它提供了GPU编程的简易接口，基于CUDA编程可以构建基于GPU计算的应用程序。 CPU是用于负责逻辑性比较强的计算，GPU专注于执行高度线程化的并行处理任务。所以
bash方式启动模型训练 BILLY BILLY 深度学习基础开发必备工具自动驾驶
export\PATHPYTHONPATH=/workspace/mmlab/mmdetection/:/workspace/mmlab/mmsegmentation/:/workspace/mmlab/mmdeploy/:${env:PYTHONPATH}\CUDA_VISIBLE_DEVICES=0\DATA_ROOT_1=/mnt/data/…/\DATA_ROOT_2=/mnt/data/
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

SSH远程登陆Linux Server运行cuda程序

你可能感兴趣的:(cuda)