E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
CUDA编程
科学计算学习文章(持续更新
因学习需要,所以汇总了一些文章浅析GPU计算——
cuda编程
浅析GPU计算——CPU和GPU的选择GPU与CPU、显卡区别CPU与GPU并行计算联系与区别使用GPU加速计算深度强化学习是如何利用GPU进行并行计算的
BugII_
·
2023-01-10 19:16
并行计算
PyTorch源码编译(windows)
github.com/pytorch/pytorch#from-source2.PyTorch用途与安装方法:3.Python与编译器版本要求(Python3.7或者更高,编译器要求支持C++17)4.如果要支持
CUDA
网络游戏定制
·
2023-01-09 13:49
Python
pytorch
深度学习
python
【
CUDA编程
】二:实现图像滤波和K均值聚类算法
前面介绍了几个简单的CUDA程序,这里再举两个更具体的应用。为简单记,用python写。图像滤波图像滤波是用一个带参数滤波器(也可以称为核,也可以称为模板)对图像逐像素点处理,通常是对像素邻域进行加权和。这里以能够提取边缘的索贝尔算子作为例子。importpycuda.autoinitimportpycuda.driverasdrvfrompycuda.compilerimportSourceMo
陈生~
·
2023-01-09 08:43
CUDA编程
opencv
计算机视觉
cuda
pycuda
图像处理
记录
CUDA编程
时遇到的bug,error code 719,"unspecified launch failure"
在使用CUDA设计radon变换函数的时候,遇到了一个一直没有解决的bug在本项目中需要对一张360×338的图像,从801个角度(10°到170°,间隔0.2°)进行投影变换,需要的计算量非常大,在CPU上做运算时,处理一张图像所需的时间:debug下约40s,release下约3s在计算radon变换矩阵时,GPU操作了801个block,每个block中有338个线程,然后在每个线程中循环处
benobug
·
2023-01-06 14:21
c++
Tensor Core加速CUDA矩阵计算
在
CUDA编程
模型中利用TensorCore加速矩阵运算C++warp矩阵运算利用TensorCores来加速D=A*B+C形式的矩阵问题。
扫地的小何尚
·
2023-01-05 08:53
矩阵
线性代数
人工智能
c++
深度学习
GEMM by CUDA WMMA
GEMMbyCUDAWMMA(tensorcore)本文章介绍的GEMM算法并非最优实现,只是为了介绍
CUDA编程
和WMMAGEMMGEMM又称为通用矩阵乘,一般为C=A∗BC=A*BC=A∗BWMMA
gtyinstinct
·
2023-01-05 08:21
计算机基础
算法
矩阵
线性代数
Ubuntu18.04 CUDA常见问题汇总
Ubuntu18.04CUDA常见问题汇总最近在Ubuntu下使用CUDA进行加速,遇到一些常见问题以及解决方案,在这里汇总一下,笔者也是最近接触
CUDA编程
,不对之处望谅解。
凯凯王1998
·
2023-01-04 15:33
ubuntu
linux
c++
windows10+visual stdio2019+CUDA10.2编程环境配置
想配置一个简单的可以进行
CUDA编程
的Windows系统环境,分别需要CUDA以及Visualstdio。
!呜呼啦呼!
·
2023-01-04 07:47
CUDA
windows
c++
CUDA
CUDA、cuDNN、TensorFlow-GPU版的安装,同时在Visual Studio 2019中搭建一个
CUDA编程
环境,解决CUDA安装后VS里没有CUDA模块
前言因为要在VS环境中进行
CUDA编程
,所以在已有VS2019的基础上,需要下载CUDA。
姜生
·
2023-01-04 07:46
安装记录
visual
studio
tensorflow
计算机视觉 基于
CUDA编程
的入门与实践 线程及同步四
一、向量点乘两个向量的点乘是重要的数学运算,也将会解释
CUDA编程
中的一个重要概念:归约运算。
坐望云起
·
2022-12-31 00:11
计算机视觉
计算机视觉
cuda
nvidia
向量点乘
矩阵乘法
10月1日计算机视觉基础学习笔记——Cuda 编程
文章目录前言一、Week8homework——Cifar10&Alexnet二、GPUschema三、Pycuda前言本文为10月1日计算机视觉基础学习笔记——
Cuda编程
,分为三个章节:Week8homework
Ashen_0nee
·
2022-12-30 02:17
计算机视觉
学习
深度学习
计算机视觉 基于
CUDA编程
的入门与实践 线程及同步三
一、线程同步对于需要线程之间互相交换数据才能完成任务的场景,必须存在某种能让线程彼此交流的机制。就需要共享内存,当很多线程并行工作并且访问相同的数据或者存储器位置的时候,线程间必须正确的同步。不过,线程间交换数据并不一定需要使用共享内存,只是共享内存较快而已。使用全局内存同样可以。例如配合正确的同步操作或者原子操作(原子操作也支持全局内存),依然可以正确地完成任务。只是使用共享内存,很多情况下较快
坐望云起
·
2022-12-30 02:16
计算机视觉
c++
cuda
并行处理
NVIDIA
原子操作
CUDA快速入门讲解、硬件结构、软件程序!
CUDA编程
真的是入门容易精通难,具有计算机体系结构和C语言编程知识储备的同学上手
CUDA编程
应该难度不会很大。本文章将重点通过以下五个主要
帅的发光发亮
·
2022-12-28 20:32
CUDA
笔记
深度学习
pytorch
神经网络
tensorflow
caffe
CUDA编程
之快速入门【转】
CUDA编程
真的是入门容易精通难,具有计算机体系结
weixin_30478757
·
2022-12-28 20:31
python
数据结构与算法
人工智能
计算机视觉 基于
CUDA编程
的入门与实践 线程及同步一
一、并行执行规模CUDA关于并行执行具有分层结构。每次内核启动时可以被切分成多个并行执行的块,而每个块又可以进一步地被切分成多个线程。这种并行执行的副本可以通过两种方式完成:一种是启动多个并行的块,每个块具有1个线程;另一种是启动1个块,每个块里具有多个线程。通过共享内存1个块中的线程可以相互通信。所以启动1个具有多个线程的块让里面的线程能够相互通信是一个优势。更加理想的则是,我们并不单独启动1个
坐望云起
·
2022-12-28 20:54
计算机视觉
cuda
并行处理
C++
NVIDIA
计算机视觉 基于
CUDA编程
的入门与实践 线程及同步二
一、存储器架构在GPU上的代码执行被划分为流多处理器、块和线程。GPU有几个不同的存储器空间,每个存储器空间都有特定的特征和用途以及不同的速度和范围。这个存储空间按层次结构划分为不同的组块,比如全局内存、共享内存、本地内存、常量内存和纹理内存,每个组块都可以从程序中的不同点访问。GPU有一级和二级缓存(即L1缓存和L2缓存)。常量内存则是用于存储常量和内核参数之类的只读数据。最后,存在纹理内存,这
坐望云起
·
2022-12-28 20:54
计算机视觉
c++
cuda
并行处理
NVIDIA
CUDA issue:cudaGetDeviceCount()错误
CUDAissue:cudaGetDeviceCount()错误160224问题
cuda编程
cudaGetDeviceCount()出问题。
SantoWong
·
2022-12-28 01:53
cuda
cuda
CUDA编程
之快速入门-----GPU加速原理和编程实现
CUDA编程
真的是入门容易精通难,具有计算机体系结
sru_alo
·
2022-12-27 07:11
gpu相关
Hands-On GPU-Accelerated Computer Vision with OpenCV and CUDA 2018学习笔记(0)——前言
首先介绍使用
CUDA编程
GPU,这对于从未使用过GPU的计算机视觉开发人员来说非常重要。然后通过一
紫金山赵火龙
·
2022-12-27 07:10
CUDA
计算机视觉
CUDA
OpenCV
【高性能计算】
CUDA编程
之OpenCV的应用(教程与代码-4)
imread命令将返回以蓝色、绿色和红色(BGR格式)开头的三个通道处理视频的main函数中需要做的第一件事是创建VideoCapture对象。GPUCUDA模块中的函数都定义在cv::cuda命名空间中,将设备上配置给图像数据用的显存块作为其参数。gettickcount函数返回启动系统后经过的时间(以毫秒为单位)使用具有CUDA的opencv进行阈值滤波#include#include"ope
heroybc
·
2022-12-27 07:10
CUDA
深度学习
机器学习
神经网络
CUDA编程
之GEMM优化
前言最近由于工作需要,研究了一下
CUDA编程
中的GEMM的优化,主要是学习了GEMM优化的常用方法,同时自己也利用了常用优化方法动手实现了一遍GEMM优化。
qianqing13579
·
2022-12-26 08:40
高性能计算
深度学习
性能优化
深度学习
CUDA编程
手册(二)
3编程接口3.2CUDA运行时cuda运行时的实现在cudart库中,通过静态链接或动态链接库的方式链接到应用程序。3.2.4页锁定宿主内存cuda运行时(runtime)库提供页锁定宿主内存(相对于malloc分配的可分页内存)相关函数:cudaHostAlloc和cudaFreeHost分配和释放页锁定宿主内存cudaHostRegister页锁定malloc分配的内存使用页锁定内存有几点好处
jony0917
·
2022-12-26 07:35
深度学习
机器学习
神经网络
使用cublas库遇到的问题(
CUDA编程
)
cublas库是在NVIDIACUDA上实现blas(基本线性代数子程序),该库是已经封装好的,可以利用该库进行向量和矩阵的多种操作,具体不在赘述。下面来介绍调用cublas库可能会出现的问题以及解决办法。1.首先调用cublas库需要添加头文件#include,编译我们已经写好的代码时可能会出现(errorLNK2019:无法解析的外部符号_cublasSgemm_vs@56,该符号在函数_ma
huwendong666666
·
2022-12-23 11:34
cuda C 编程权威指南 Grossman 第2章
CUDA编程
模型
2.1
CUDA编程
模型概述
CUDA编程
模型提供了一个计算机架构抽象作为应用程序和其可用硬件之间的桥梁。通信抽象是程序与编程模型实现之间的分界线,它通过专业的硬件原语和操作系统的编译器或库来实现。
岐岇
·
2022-12-23 00:19
CUDA
C编程
权威指南
c++
cuda
并行计算
性能优化
CUDA学习之第一章基于CUDA的异构并行计算
的异构并行计算并行计算串行编程和并行编程并行性计算机架构弗林分类内存组织分类GPU异构计算异构架构衡量GPU容量的两个重要指标:评估GPU性能的两种不同指标:异构计算范例GPU和CPU线程的特点:CUDA:一种异构计算平台用GPU输出HelloWorld
CUDA
我想静静,
·
2022-12-23 00:18
CUDA
人工智能
CUDA
CUDA编程
学习3——并行计算初窥&CUDA的软硬件架构
目录并行计算概述查看GPU相关信息软硬件架构基础物理层(物理结构)逻辑层(kernel组织)物理层和逻辑层的总结参考并行计算概述所谓并行计算的概念定义同时多个计算资源一起工作(逻辑以及物理上的并行而非并发),协同解决一个计算问题涉及多个计算资源或者处理器;问题被分解为多个离散的部分,可以同时处理;(数据并行)每个部分可以由一系列指令完成;(指令并行)(易混词:并发反义词:串行)如下图所示,问题的每
Mr_yangsc
·
2022-12-23 00:47
并行计算
Linux编程基本知识
我的硕士生活
学习
linux
硬件架构
语言模型
CUDA编程
学习<2>——归约算法的7种优化方法详解
本文会复现PPT最后的测试性能表格的9个数据及其耗时,还有一些注意事项,对于不熟悉
CUDA编程
的同学来说复现并不容易。
鸿儒517
·
2022-12-22 19:58
C++
笔记心得
cuda
c++
6.
CUDA编程
手册中文版---附录A&B
附录A支持GPU设备列表更多精彩内容,请扫描下方二维码或者访问https://developer.nvidia.com/zh-cn/developer-program来加入NVIDIA开发者计划https://developer.nvidia.com/cuda-gpus列出了所有支持CUDA的设备及其计算能力。可以使用运行时查询计算能力、多处理器数量、时钟频率、设备内存总量和其他属性(参见参考手册
扫地的小何尚
·
2022-12-22 19:23
CUDA编程
人工智能
c语言
算法
c++
ai
CUDA ~ WarpReduce
又是一篇关于cuda的要好好学学哦,
CUDA编程
进阶分享,一些warp的使用如何实现一个高效的SoftmaxCUDAkernel?
whaosoft143
·
2022-12-22 19:21
人工智能
人工智能
基于CUDA的图像处理——超快速图像旋转
有以下几种方法:基于opencv的仿射变换;cv::warpAffine();基于cpu或多线程遍历所有像素;基于CUDA遍历所有像素;速度超快不妨试试,如代码不理解先去看看基础
CUDA编程
*.cpp文件
大臉喵愛吃魚
·
2022-12-22 11:07
CUDA
C++
c++
CUDA编程
之示例(GPU读取图像矩阵的像素值--未完待续
关于GPU编程的这些资料均是我早期的一些资料,趁出差这段时间整理下,所以就直接复制过来了,其中会有一些瑕疵,请读者朋友斧正,以下的代码仅仅是验证,在VS上已通过且达到了预期的目的,如果有时间,接下来我会编写并分享使用gpu编程实际应用过程中的经验教训和总结。图像的纹理内存的读取方法:特别提示:gpu上的tex2D(img,x,y)中的x,y坐标对应图像坐标是:X=0~cols,y=0~rows,与
lliming2006
·
2022-12-22 11:06
计算机视觉
cuda
深度学习
神经网络
计算机视觉
线程
CUDA编程
:GPU float 与 double 精度问题
本人在开发项目时,遇到这个非法访问内存的错误:Checkfailed:error==cudaSuccess(77vs.0)anillegalmemoryaccesswasencountered检查了很长时间代码,也没检查出错误,最后通过逐步输出中间结果进行调试,发现某些变量被GPU计算错了,而导致这个错误的原因就是:float精度不够,索引是根据中间变量计算而来,当中间误差特别大时,会导致内存索引
改个名字真不容易�
·
2022-12-22 07:51
cuda
gpu
CUDA C++ Programming Guide(Version 10.0) —— 3. Programming Interface
CUDA编程
-ProgrammingInterfaceCompilationwithNVCC(用NVCC编译)CompilationWorkflow(编译工作流)BinaryCompatibility(
Axiiiz
·
2022-12-22 07:48
cuda编程
cuda
CUDA编程
手册中文版---编程接口
第三章编程接口更多精彩内容,请扫描下方二维码或者访问https://developer.nvidia.com/zh-cn/developer-program来加入NVIDIA开发者计划CUDAC++为熟悉C++编程语言的用户提供了一种简单的途径,可以轻松编写由设备执行的程序。它由c++语言的最小扩展集和运行时库组成。编程模型中引入了核心语言扩展。它们允许程序员将内核定义为C++函数,并在每次调用函
扫地的小何尚
·
2022-12-22 07:44
CUDA编程
人工智能
算法
ai
c++
c语言
18.
CUDA编程
手册中文版---附录N CUDA的统一内存
https://developer.nvidia.com/zh-cn/developer-program来加入NVIDIA开发者计划N.1.UnifiedMemoryIntroduction统一内存是
CUDA
扫地的小何尚
·
2022-12-22 07:44
CUDA编程
人工智能
c++
开发语言
ai
c语言
CUDA编程
——Warp Divergence
Warp回顾一下CUDA的线程层次
CUDA编程
中,warp是调度和运行的基本单元,目前,每个warp包含32个threads。
ZhangJunior
·
2022-12-22 07:13
CUDA编程
CUDA 编程上手指南:CUDA C 编程及 GPU 基本知识
推荐大家关注极市平台公众号,每天都会更新最新的计算机视觉论文解读、综述盘点、调参攻略、面试经验等干货~目录1CPU和GPU的基础知识2
CUDA编程
的重要概念3并行计算向量相加4实践4.1向量相加CUDA
极市平台
·
2022-12-22 07:10
c语言
计算机视觉
人工智能
cuda
深度学习
CUDA学习笔记(大白话入门课程)
CUDA的基本概念:CUDA是NVIDIA公司推出的并行计算框架,只能基于自家GPU的硬件平台进行性能加速运算,所以使用
CUDA编程
的前提是必须要有NVIDIA的显卡。
滑了丝的螺丝钉
·
2022-12-21 04:31
CUDA
人工智能
cuda
并行计算
从头开始进行
CUDA编程
:Numba并行编程的基本概念
GPU(图形处理单元)最初是为计算机图形开发的,但是现在它们几乎在所有需要高计算吞吐量的领域无处不在。这一发展是由GPGPU(通用GPU)接口的开发实现的,它允许我们使用GPU进行通用计算编程。这些接口中最常见的是CUDA,其次是OpenCL和最近刚出现的HIP。Python中使用CUDACUDA最初被设计为与C兼容后来的版本将其扩展到c++和Fortran。在Python中使用CUDA的一种方法
·
2022-12-19 17:17
派福利!通过 Azure 零成本进入 CUDA 编程
CUDA编程
介绍什么是CUDA?
·
2022-12-19 17:46
azuregpu
Ubuntu18.04 NVIDIA-CUDA-cuDNN 安装配置
提示如果不是做
cuda编程
,以下内容不必多看,直接不用看了!!!
blainet
·
2022-12-17 18:45
环境
深度学习
后端
linux
ftp
CUDA编程
之快速入门
CUDA编程
真的是入门容易精通难,具有计算机体系结构和C语言编程知识储备的同学上手
CUDA编程
应该难度不会很大。本文章将通过以下五个方面帮助
weixin_34310369
·
2022-12-15 17:37
python
数据结构与算法
人工智能
CUDA教程: 2.初识CUDA---CUDA简介
CUDA教程:2.初识CUDA在上一章,我们介绍了GPU的硬件,这一张呢,我们来聊聊
CUDA编程
的细节.说到编程细节,无非就是包含:环境安装,语法风格,实现流程(或叫做编程模型),关键字,编译这些事.接下来
扫地的小何尚
·
2022-12-15 17:36
人工智能
c++
python
ai
性能优化
CUDA编程
01——获取显卡设备信息
环境配置就不多说了,有很多这方面的资料,作者的环境是:显卡:NvidiaGeForce920MX(很渣)CUDA:9.2IDE:VS2015OS:WIN1064bit首先通过cuda的设备查询接口来获取显卡的相应信息,代码如下:#include#include#include#includevoidmain(){intdeviceCount;cudaGetDeviceCount(&deviceCo
jieleiping
·
2022-12-15 17:06
CUDA编程
CUDA编程
: GPU与CPU之间使用全局统一内存的完整代码及编译
CUDA编程
:GPU与CPU之间使用全局统一内存的完整代码及编译最近碰到一个应用场景,需要从GPU访问host上创建的,一个很大的布隆过滤器(准确说是改进后的布谷鸟过滤器)。
ysh
·
2022-12-15 16:20
CUDA
GPU
c++
开发语言
GPU与cuda
功能单元2.2几种架构特性简介2.3具体的几种微观架构3.GPU执行模型3.1SIMT3.2线程级别的映射3.3编译cuda1.CUDA简介1.1GPU和CPU1.2可伸缩Scaleable的编程模式2.
CUDA
?。。。。
·
2022-12-15 16:49
cuda编程
:稀疏矩阵乘法结合MINRES算法求解泊松方程的并行编程
可以通过本人知乎免费了解博客内容和代码质量添加链接描述稀疏矩阵的介绍和存储稀疏矩阵主要指的是存在大量零元素的矩阵,常见的稀疏矩阵比如说社交媒体的邻接矩阵,微分方程数值解钟差分法形成的矩阵和有限元方法搭建的刚度矩阵。对于稀疏矩阵,如果对于矩阵每个元素都分配内存存储,将会造成大量的内存浪费,同时做矩阵运算的时候由于读取过程中反复读取零元素将会增大内存访问的时间。因此,为了降低存储空间同时提高访问效率,
Galerkin码农选手
·
2022-12-15 06:57
高性能计算
传统数值方法
算法
线性代数
矩阵
Jacobi迭代的
cuda编程
可以通过本人知乎免费了解博客内容和代码质量添加链接描述
CUDA编程
的简单介绍
cuda编程
的过程:⇒\Rightarrow\quad⇒CPU端定义变量⇒\Rightarrow\quad⇒
Galerkin码农选手
·
2022-12-15 06:27
高性能计算
传统数值方法
c++
算法
开发语言
CUDA C 编程/Nsight可视化
CUDACCUDAC编程名词的意思1.0并行计算与GPU架构1.1异构计算与CUDA2.1
CUDA编程
模型(一)核函数计时组织并行线程GPU设备信息使用NvidiaProfilerNsysNVTX结合launch.pyNsightComputeCUDAC
77summer77
·
2022-12-13 19:02
cuda
c
cuda
第十五章_异构运算、GPU及框架选型
15.4CUDA框架15.4.1做
CUDA编程
难不难?15.4.2cuDNN15.
让我中个100万
·
2022-12-12 13:38
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他