E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
cuda(GPU
Cuda
Instruction Replay
在
CUDA
编程中,指令重放(InstructionReplay)是
GPU
执行指令时因特定原因导致指令需重复发射或重新执行的现象,通常会影响性能。
ZhiqianXia
·
2025-05-04 16:20
CUDA
技术笔记
cuda
【
GPU
微架构技术】Pending Request Table(PRT)技术详解
PRT(PendingRequestTable)是
GPU
中用于管理未完成内存请求(outstandingmemoryrequests)的一种硬件结构,旨在高效处理大规模并行线程的内存访问需求。
ZhiqianXia
·
2025-05-04 16:48
CUDA
技术笔记
微架构
CUDA
Toolkit 12.9 与 cuDNN 9.9.0 发布,带来全新特性与优化
NVIDIA近日发布了
CUDA
Toolkit12.9,为开发者提供了一系列新功能和改进,旨在进一步提升
GPU
加速应用的性能和开发效率。
love530love
·
2025-05-04 13:30
windows
人工智能
python
深度学习
如何加速机器学习模型训练:深入探讨与实用技巧
1.硬件加速:利用
GPU
与TPU提升训练速度1.1
GPU
加速图形处理单元(
GPU
)与中
未名编程
·
2025-05-04 09:38
人工智能
机器学习
人工智能
nerfstudio搭建 win11踩坑记录之tiny
cuda
nn
tiny
cuda
nn安装安装方法1安装方法2错误原因:解决方法:测试:参考安装方法1pipinstallgit+https://github.com/NVlabs/tiny-
cuda
-nn/#subdirectory
qq_41295301
·
2025-05-04 08:01
python
当MCP撞进云宇宙:多芯片封装如何重构云计算的“芯“未来?
2024年3月,AMD发布了震撼业界的MI300A/B芯片——这颗为AI计算而生的"超级芯片",首次在单封装内集成了13个计算芯片(包括3DV-Cache缓存、CDNA3
GPU
和Zen4CPU),用多芯片封装
Echo_Wish
·
2025-05-04 06:47
Python
进阶
重构
云计算
pytorch基础
PyTorch使用张量(tensor)来表示数据,可以轻松地处理大规模数据集,且可以在
GPU
上加速。PyTorch提供了许多高级功能,如自动微分(automaticdifferen
joekl
·
2025-05-04 06:16
pytorch
人工智能
python
私有云平台安装与搭建
而广义的虚拟化技术是指对计算资源的抽象,这些计算资源包括CPU、内存、存储(磁盘)、网络,甚至也可以包括像
GPU
、FPGA这类外部设备。对计算资源做抽象的好处颇多,最显著的就是可
Sword_of_despair
·
2025-05-04 06:15
云计算
openstack
PyTorch_指定运算设备 (包含安装
GPU
的 PyTorch)
我们也可以将张量创建在
GPU
上,能够利用对于矩阵计算的优势加快模型训练。
CHNMSCS
·
2025-05-04 06:15
PyTorch
pytorch
人工智能
python
Flash attention入门
一、目录flashattention
GPU
运算流程flashattention原理flashattention与standardattention时间/内存对比。
贾亚飞
·
2025-05-04 02:53
AI
自然语言处理
gem5-
gpu
benchmark 编译基准 过程碰到的问题记录 usr/bin/ld: cannot find -lcutil_x86_64 -lshrutil_x86_64
makegem5-
gpu
错误如下:关于/usr/bin/ld:cannotfind-l****解决usr/bin/ld:cannotfind-lcutil_x86_64/usr/bin/ld:cannotfind-lshrutil_x86
事橙1999
·
2025-05-04 00:41
gem5-gpu
linux
运维
windows
Unity URP性能优化Static Batching、
GPU
Instancing、SRPBatcher
StaticBatching将一组静态物体的模型batch成一个模型,并作为一个整体提交的
GPU
。
VirtualCreator
·
2025-05-03 21:19
Unity渲染&TA
unity
生动形象的解释下Unity引擎渲染技术
GPU
实例化(
GPU
Instancing)
我用一个生动形象的比喻,帮你理解Unity引擎中的**
GPU
实例化(
GPU
Instancing)**技术。什么是
GPU
实例化?
你一身傲骨怎能输
·
2025-05-03 21:17
商业化游戏开发技术专栏
unity
游戏引擎
GPU
Instancing
GPU
Instancing 与动态批处理在 Unity 中的使用指南
动态批处理(DynamicBatching)自动部分:Unity默认启用动态批处理符合条件的物体会自动进行批处理手动优化部分:需要确保物体满足批处理条件可通过项目设置开关此功能
GPU
Instancing
霸格
·
2025-05-03 21:16
unity
游戏引擎
【知识学习】Unity3D中
GPU
Instance的概念及使用方法示例
在Unity3D中,
GPU
Instancing是一种优化技术,它允许开发者在不增加DrawCall(绘制调用)的情况下,通过
GPU
绘制多个具有相同Mesh和Material但可能具有不同变换(位置、旋转
Unity游戏开发
·
2025-05-03 20:45
学习
unity
开发语言
游戏引擎
c#
游戏程序
Detectron2 安装问题解决方案
Detectron2安装问题解决方案问题描述安装Detectron2时遇到以下错误:ImportError:libtorch_
cuda
_cu.so:cannotopensharedobjectfile:
angrunzheng
·
2025-05-03 20:14
python
亚马逊云服务器性能深度优化方案(2025版)
版)一、计算架构全面升级1.新一代AI算力引擎•Trn2UltraServer实例:搭载64颗第二代Trainium芯片,单节点FP8算力达83.2PFlops,支持千亿参数大模型训练,训练速度较传统
GPU
国际云,接待
·
2025-05-03 19:37
aws
服务器
运维
云计算
aws
科技
架构
甲骨文云2025深度解析:AI驱动的云原生生态与全球化突围
例如,OCISupercluster集群可连接131,072个NVIDIAH100
GPU
,为OpenAI的“星门”项目提供算力支撑
国际云,接待
·
2025-05-03 19:06
人工智能
云原生
服务器
量子计算
性能优化
运维
云计算
大模型压缩技术详解(2025最新进展)
模型部署的成本挑战大语言模型依赖
GPU
进行计算,这导致部署成本极
一切皆有可能!!
·
2025-05-03 18:28
大模型
语言模型
【计算机视觉】三维视觉:Nerfstudio:模块化神经辐射场框架的技术突破与实战指南
数据采集与预处理2.模型训练与优化3.可视化与导出核心技术深度解析1.混合表示网络2.渐进式训练策略3.微分渲染优化常见问题与解决方案1.COLMAP重建失败2.训练显存不足3.动态场景伪影性能优化策略1.多
GPU
白熊188
·
2025-05-03 14:30
计算机视觉
计算机视觉
人工智能
github深度学习项目复现教程
搜索关键词“deeplearning”等,最受欢迎的是stars数最多的查看readme是否清晰地描述了项目目标、使用的技术、安装步骤和运行方法是否包含依赖项、所需数据集和训练模型等信息1、准备环境如果是租用
gpu
橙意满满的西瓜大侠
·
2025-05-03 13:26
机器学习
github
DeepSeek使用指南:从“你好“到AI灵魂伴侣的奇幻之旅
——因为它没有鼻子,只有
GPU
!"好了,笑完(或者没笑)之后,让我们进入正题。你可能已经发现,DeepSeek这个AI助手时而像个无所不知的教授,时而又像个固执己见的三岁小孩。
zCq_Li
·
2025-05-03 13:55
人工智能
人工智能
deepseek
OpenGLES(三)VAO、VBO、EBO
VBO:顶点缓冲对象(VertexBufferObjects)VAO:顶点数组对象(VertexArrayObjects)EBO:索引缓冲对象(ElementBufferObject)VBOVBO会在
GPU
Hufft
·
2025-05-03 05:32
OpenGL
android
首发!Llama3纯本地部署攻略!中文方法!
整好周六日有时间,在魔搭社区上测试一下一、启动环境登录魔搭社区,到自己的机器资源,可以看到,可选的机器配置,这里我们选择:8核32G内存,24G显存;预装ModelScope预装镜像为:ubuntu22.04-
cuda
12.1.0
添财小哥
·
2025-05-03 04:21
人工智能
C++ pdserving 部署推理模型遇到的各种坑,看这一篇就够了!!!
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档C++pdserving部署推理模型遇到的各种坑,通过这篇文章可以成功部署ppocrv3和ppocrv4版本,CPU和
GPU
版本,TensorRT
allen_hai
·
2025-05-03 04:20
c++
paddle
paddlepaddle
ocr
GPU
虚拟化实现(五)
GPU
虚拟化实现(五)章节回顾初步介绍详细介绍核心数据结构核心功能和运作机制初始化显存分配显存释放显存溢出检查显存类型检查查看分配信息代码执行流程假设例子总结章节回顾在上一章,简单介绍了项目拦截
cuda
想看一次满天星
·
2025-05-03 04:19
GPU虚拟化实现
服务器
linux
gpu算力
系统架构
人工智能
window 显示驱动开发-枚举
GPU
引擎功能(一)
一、引擎功能设备驱动程序接口(DDI)此接口提供指定
GPU
节点的引擎功能:DxgkDdiGetNodeMetadataDXGKARG_GETNODEMETADATADXGK_ENGINE_TYPE指向DxgkDdiGetNodeMetadata
程序员王马
·
2025-05-03 03:16
windows图形显示驱动开发
驱动开发
深度学习开发环境-TensorRT (环境配置看这个)
文件安装装之前要先装numpy3.3TensorRT安装后环境变量设置4.TensorRT的使用1什么是TensorRT参考:1.什么是TensorRTTensor是一个有助于在NVIDIA图形处理单元(
GPU
周陽讀書
·
2025-05-02 19:19
TensorRT
个人经验可供分享
深度学习
人工智能
YOLOv5的
gpu
训练环境安装(windows系统,anaconda虚拟python环境)
本人在用YOLOv5进行物体检测时,使用使用detect.py文件时无法调用
gpu
,下载了pytorch的
gpu
版本后代码运行会报错,错误信息说是
CUDA
环境不正确,为此整理了一下
CUDA
和pytorch
wifi11
·
2025-05-02 14:18
windows
python
pytorch
高校超算中心建设指南:Slurm调度器与
GPU
资源共享的20个陷阱(清华/中科大真实案例)
在高校超算中心的建设实践中,Slurm调度器与
GPU
资源管理是两大核心课题。本文基于清华大学、中国科学技术大学等机构的真实运维案例,总结出20个关键陷阱及解决方案,供高校科研人员参考。
学术猿之吻
·
2025-05-02 12:09
GPU
人工智能
高校
网络
人工智能
深度学习
架构
数据结构
ai
gpu算力
超越
CUDA
:ROCm与oneAPI在异构计算中的性能对比实验(国产
GPU
生态下的开发路径探索)
一、异构计算生态的竞争格局当前异构计算领域呈现“一超多强”格局:英伟达凭借
CUDA
生态占据90%以上的AI训练市场份额,而AMD的ROCm与英特尔的oneAPI通过差异化技术路线持续挑战其垄断地位
学术猿之吻
·
2025-05-02 12:38
人工智能
高校
GPU
人工智能
线性代数
深度学习
量子计算
gpu算力
ai
机器学习
CUDA
编程高阶优化:如何突破
GPU
内存带宽瓶颈的6种实战策略
在
GPU
计算领域,内存带宽瓶颈是制约性能提升的"隐形杀手"。本文面向具备
CUDA
基础的研究者,从寄存器、共享内存到TensorCore,系统剖析6项突破性优化策略,助你充分释放
GPU
算力。
学术猿之吻
·
2025-05-02 12:08
GPU
高校
人工智能
边缘计算
人工智能
transformer
深度学习
gpu算力
ai
AI编程
GPU
虚拟化技术在分布式训练中的落地难题与解决方案
在高校实验室中,
GPU
资源的高效利用是支撑分布式训练、大模型研究的关键。然而,多课题组共享
GPU
集群时普遍存在资源碎片化、隔离性不足、调度效率低等问题。
学术猿之吻
·
2025-05-02 12:08
高校
GPU
人工智能
分布式
人工智能
transformer
深度学习
机器学习
矩阵
gpu算力
CUDA
编程优化:如何实现矩阵计算的100倍加速
根据NVIDIAAmpere架构白皮书,A100
GPU
的理论计算峰值(FP32)为19.5TFLOPS,但原生
CUDA
代码往往只能达到5-8%的理论值。
学术猿之吻
·
2025-05-02 12:38
GPU
高校
人工智能
矩阵
人工智能
线性代数
深度学习
量子计算
算法
gpu算力
NVIDIA H100 vs A100:新一代
GPU
架构性能对比分析
一、核心架构演进对比Ampere架构(A100)采用台积电7nm工艺,集成540亿晶体管,配备6,912个
CUDA
核心和432个第三代TensorCore,支持FP16、TF32和INT8精度计算。
学术猿之吻
·
2025-05-02 12:37
高校
GPU
人工智能
架构
分布式
pytorch
人工智能
深度学习
python
ai
国产
GPU
破局之路:摩尔线程与景嘉微的技术路线对比
引言:国产
GPU
的双轨突围在英伟达占据全球AI芯片市场90%份额的背景下,国产
GPU
企业正通过差异化技术路线谋求突破。摩尔线程与景嘉微分别代表了全功能通用
GPU
与垂直领域专用
GPU
的两大方向。
学术猿之吻
·
2025-05-02 12:37
高校
GPU
人工智能
transformer
深度学习
人工智能
机器学习
ai
博士生存指南:如何用3个月从PyTorch进阶
CUDA
核函数开发?
对于深度学习领域的博士生,掌握
CUDA
核函数开发能力意味着能突破框架限制、实现算法级性能优化。
学术猿之吻
·
2025-05-02 12:07
高校
GPU
人工智能
pytorch
人工智能
python
机器学习
ai
gpu算力
深度学习
解决stable-diffusion-webui时的问题:No module ‘xformers‘. Proceeding without it
xformers非强制安装;可优化显存,提高性能和出图速率,对于
GPU
能力有限的用户很有用;安装过程会调整pytorch版本以适配xformers安装版本。
whistle哨子
·
2025-05-02 05:20
stable
diffusion
DeepSeek本地部署及WebUI可视化完全指南
GPU
(可选但推荐):NVIDIARTX3060(7B模型)至RTX4090(32B模型),显存需满足模型要求。内存与存储:16GB内存(最低)-64GB(推荐),30GB以上可用硬盘空间。2
赛博AI Lewis
·
2025-05-02 03:35
DeepSeek
人工智能
人工智能
Deepseek
Windows系统下MinerU的
CUDA
加速配置指南
Windows系统下MinerU的
CUDA
加速配置指南快速解锁
GPU
性能,提升文档解析效率1、简介MinerU是一款高效的文档解析工具,支持通过
CUDA
加速显著提升处理速度。
林语微光
·
2025-05-02 00:48
论文翻译
python
从入门到实践
windows
mineru接口调用
人工智能
DeepSeek 本地化部署的最佳实践
选择合适的硬件:Windows:依赖
CUDA
和NVIDIA驱动,推荐使用RTX30/40系列。大模型需借助量化或模型分片技术。macOS:仅限AppleSi
AI方案2025
·
2025-05-02 00:14
deepseek
Python&aconda系列:(W&L)Conda使用faiss-
gpu
报错及解决办法、安装numpy的坑、cmd执行Python脚本找不到第三方库、安装tensorflow-
gpu
时遇到的from
这里写目录标题一.通过AnacondaPrompt搭建faiss-
gpu
1.7.0和tensorflow-
gpu
1.13.1的联合环境二.安装tensorflow-
gpu
时遇到的fromtensorflow.pythonimportpywrap_tensorflow
坦笑&&life
·
2025-05-01 23:13
#
python
python
conda
faiss
AI大模型基础设施:NVIDIA的用于AI大语言模型训练和推理的几款主流显卡
英伟达(NVIDIA)在AI大语言模型(LLM)的训练和推理领域占据主导地位,其
GPU
因强大的并行计算能力和专为深度学习优化的架构而广受青睐。
InnoLink_1024
·
2025-05-01 23:39
人工智能
芯片
GPU
人工智能
语言模型
gpu算力
深度学习框架:PyTorch使用教程 !!
PyTorch使用教程2.1入门阶段2.1.1环境安装与配置2.1.2Tensor基础操作2.1.3自动求导(Autograd)2.1.4构建神经网络(nn模块)2.1.5损失函数与优化器2.2进阶阶段2.2.1
GPU
JOYCE_Leo16
·
2025-05-01 15:22
计算机视觉
深度学习
pytorch
人工智能
图像处理
计算机视觉
2025云服务器实战手册:从技术架构到商业增长的全链路指南
年云服务器已突破「中心化」架构限制,形成「边缘节点+区域中心+超级云脑」的三级体系:边缘计算:华为云Atlas500实现5ms级实时响应,制造企业质检效率提升40%异构集群:阿里云GN7i实例支持CPU+
GPU
国际云
·
2025-05-01 15:51
架构
大数据
【计算机视觉】目标检测:深度解析Detectron2:Meta开源目标检测与图像分割框架实战指南
开源目标检测与图像分割框架实战指南技术架构与设计哲学核心设计理念关键技术组件环境配置与安装硬件建议配置详细安装步骤实战流程详解1.自定义数据集准备2.模型配置与训练3.模型评估与推理核心功能扩展1.自定义模型架构2.混合精度训练3.分布式训练常见问题与解决方案1.
CUDA
白熊188
·
2025-05-01 14:40
计算机视觉
计算机视觉
目标检测
开源
云
GPU
服务器上使用JupyterLab进行深度学习
在云
GPU
服务器上使用JupyterLab可以为深度学习任务提供便利和灵活性。本文将介绍如何在恒源云的云
GPU
服务器上配置和使用JupyterLab进行深度学习。
YgjWeb
·
2025-05-01 11:55
服务器
深度学习
运维
使用RTX3080显卡搭建基于Pycharm+Python+
Cuda
+cuDNN+TensorFlow的深度学习开发环境
blog.csdn.net/tjhyx2012/article/details/112955582作为一名新手,也是出于兴趣,我通过查找有关资料,使用RTX3080显卡搭建了基于Pycharm+Python+
Cuda
时光如昨
·
2025-05-01 08:02
人工智能学习
深度学习
tensorflow
nvidia
机器学习
神经网络
pytorch原地操作无法反向传播
RuntimeError:oneofthevariablesneededforgradientcomputationhasbeenmodifiedbyaninplaceoperation:[torch.
cuda
.FloatTensor
。。。DY
·
2025-05-01 05:43
pytorch
人工智能
python
gem5-
gpu
安装过程碰到的问题记录 关于使用 Ruby + Garnet
要使用gem5-
gpu
+garnet,您可能需要修改python配置脚本。
事橙1999
·
2025-05-01 04:08
gem5-gpu
ruby
java
前端
上一页
14
15
16
17
18
19
20
21
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他