cuda(GPU 第18页

Cuda Instruction Replay

在CUDA编程中，指令重放（InstructionReplay）是GPU执行指令时因特定原因导致指令需重复发射或重新执行的现象，通常会影响性能。

ZhiqianXia·2025-05-04 16:20

【GPU 微架构技术】Pending Request Table（PRT）技术详解

PRT（PendingRequestTable）是GPU中用于管理未完成内存请求（outstandingmemoryrequests）的一种硬件结构，旨在高效处理大规模并行线程的内存访问需求。

ZhiqianXia·2025-05-04 16:48

CUDA Toolkit 12.9 与 cuDNN 9.9.0 发布，带来全新特性与优化

NVIDIA近日发布了CUDAToolkit12.9，为开发者提供了一系列新功能和改进，旨在进一步提升GPU加速应用的性能和开发效率。

love530love·2025-05-04 13:30

如何加速机器学习模型训练：深入探讨与实用技巧

1.硬件加速：利用GPU与TPU提升训练速度1.1GPU加速图形处理单元（GPU）与中

未名编程·2025-05-04 09:38

nerfstudio搭建 win11踩坑记录之tinycudann

tinycudann安装安装方法1安装方法2错误原因：解决方法：测试：参考安装方法1pipinstallgit+https://github.com/NVlabs/tiny-cuda-nn/#subdirectory

qq_41295301·2025-05-04 08:01

当MCP撞进云宇宙：多芯片封装如何重构云计算的“芯“未来？

2024年3月，AMD发布了震撼业界的MI300A/B芯片——这颗为AI计算而生的"超级芯片"，首次在单封装内集成了13个计算芯片（包括3DV-Cache缓存、CDNA3GPU和Zen4CPU），用多芯片封装

Echo_Wish·2025-05-04 06:47

pytorch基础

PyTorch使用张量（tensor）来表示数据，可以轻松地处理大规模数据集，且可以在GPU上加速。PyTorch提供了许多高级功能，如自动微分（automaticdifferen

joekl·2025-05-04 06:16

私有云平台安装与搭建

而广义的虚拟化技术是指对计算资源的抽象，这些计算资源包括CPU、内存、存储(磁盘)、网络，甚至也可以包括像GPU、FPGA这类外部设备。对计算资源做抽象的好处颇多，最显著的就是可

Sword_of_despair·2025-05-04 06:15

PyTorch_指定运算设备（包含安装 GPU 的 PyTorch）

我们也可以将张量创建在GPU上，能够利用对于矩阵计算的优势加快模型训练。

CHNMSCS·2025-05-04 06:15

Flash attention入门

一、目录flashattentionGPU运算流程flashattention原理flashattention与standardattention时间/内存对比。

贾亚飞·2025-05-04 02:53

gem5-gpu benchmark 编译基准过程碰到的问题记录 usr/bin/ld: cannot find -lcutil_x86_64 -lshrutil_x86_64

makegem5-gpu错误如下：关于/usr/bin/ld:cannotfind-l****解决usr/bin/ld:cannotfind-lcutil_x86_64/usr/bin/ld:cannotfind-lshrutil_x86

事橙1999·2025-05-04 00:41

Unity URP性能优化Static Batching、GPU Instancing、SRPBatcher

StaticBatching将一组静态物体的模型batch成一个模型，并作为一个整体提交的GPU。

VirtualCreator·2025-05-03 21:19

生动形象的解释下Unity引擎渲染技术 GPU实例化（GPU Instancing）

我用一个生动形象的比喻，帮你理解Unity引擎中的**GPU实例化（GPUInstancing）**技术。什么是GPU实例化？

你一身傲骨怎能输·2025-05-03 21:17

GPU Instancing 与动态批处理在 Unity 中的使用指南

动态批处理(DynamicBatching)自动部分:Unity默认启用动态批处理符合条件的物体会自动进行批处理手动优化部分:需要确保物体满足批处理条件可通过项目设置开关此功能GPUInstancing

霸格·2025-05-03 21:16

【知识学习】Unity3D中GPU Instance的概念及使用方法示例

在Unity3D中，GPUInstancing是一种优化技术，它允许开发者在不增加DrawCall（绘制调用）的情况下，通过GPU绘制多个具有相同Mesh和Material但可能具有不同变换（位置、旋转

Unity游戏开发·2025-05-03 20:45

Detectron2 安装问题解决方案

Detectron2安装问题解决方案问题描述安装Detectron2时遇到以下错误：ImportError:libtorch_cuda_cu.so:cannotopensharedobjectfile:

angrunzheng·2025-05-03 20:14

亚马逊云服务器性能深度优化方案（2025版）

版）一、计算架构全面升级1.新一代AI算力引擎•Trn2UltraServer实例：搭载64颗第二代Trainium芯片，单节点FP8算力达83.2PFlops，支持千亿参数大模型训练，训练速度较传统GPU

国际云，接待·2025-05-03 19:37

甲骨文云2025深度解析：AI驱动的云原生生态与全球化突围

例如，OCISupercluster集群可连接131,072个NVIDIAH100GPU，为OpenAI的“星门”项目提供算力支撑

国际云，接待·2025-05-03 19:06

大模型压缩技术详解（2025最新进展）

模型部署的成本挑战大语言模型依赖GPU进行计算，这导致部署成本极

一切皆有可能！！·2025-05-03 18:28

【计算机视觉】三维视觉：Nerfstudio：模块化神经辐射场框架的技术突破与实战指南

数据采集与预处理2.模型训练与优化3.可视化与导出核心技术深度解析1.混合表示网络2.渐进式训练策略3.微分渲染优化常见问题与解决方案1.COLMAP重建失败2.训练显存不足3.动态场景伪影性能优化策略1.多GPU

白熊188·2025-05-03 14:30

github深度学习项目复现教程

搜索关键词“deeplearning”等，最受欢迎的是stars数最多的查看readme是否清晰地描述了项目目标、使用的技术、安装步骤和运行方法是否包含依赖项、所需数据集和训练模型等信息1、准备环境如果是租用gpu

橙意满满的西瓜大侠·2025-05-03 13:26

DeepSeek使用指南：从“你好“到AI灵魂伴侣的奇幻之旅

——因为它没有鼻子，只有GPU！"好了，笑完（或者没笑）之后，让我们进入正题。你可能已经发现，DeepSeek这个AI助手时而像个无所不知的教授，时而又像个固执己见的三岁小孩。

zCq_Li·2025-05-03 13:55

OpenGLES（三）VAO、VBO、EBO

VBO：顶点缓冲对象（VertexBufferObjects）VAO：顶点数组对象（VertexArrayObjects）EBO：索引缓冲对象（ElementBufferObject）VBOVBO会在GPU

Hufft·2025-05-03 05:32

首发！Llama3纯本地部署攻略！中文方法！

整好周六日有时间，在魔搭社区上测试一下一、启动环境登录魔搭社区，到自己的机器资源，可以看到，可选的机器配置，这里我们选择：8核32G内存，24G显存；预装ModelScope预装镜像为：ubuntu22.04-cuda12.1.0

添财小哥·2025-05-03 04:21

C++ pdserving 部署推理模型遇到的各种坑，看这一篇就够了！！！

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档C++pdserving部署推理模型遇到的各种坑，通过这篇文章可以成功部署ppocrv3和ppocrv4版本，CPU和GPU版本，TensorRT

allen_hai·2025-05-03 04:20

GPU虚拟化实现（五）

GPU虚拟化实现（五）章节回顾初步介绍详细介绍核心数据结构核心功能和运作机制初始化显存分配显存释放显存溢出检查显存类型检查查看分配信息代码执行流程假设例子总结章节回顾在上一章，简单介绍了项目拦截cuda

想看一次满天星·2025-05-03 04:19

window 显示驱动开发-枚举 GPU 引擎功能（一）

一、引擎功能设备驱动程序接口(DDI)此接口提供指定GPU节点的引擎功能：DxgkDdiGetNodeMetadataDXGKARG_GETNODEMETADATADXGK_ENGINE_TYPE指向DxgkDdiGetNodeMetadata

程序员王马·2025-05-03 03:16

深度学习开发环境-TensorRT (环境配置看这个)

文件安装装之前要先装numpy3.3TensorRT安装后环境变量设置4.TensorRT的使用1什么是TensorRT参考：1.什么是TensorRTTensor是一个有助于在NVIDIA图形处理单元（GPU

周陽讀書·2025-05-02 19:19

YOLOv5的gpu训练环境安装（windows系统，anaconda虚拟python环境）

本人在用YOLOv5进行物体检测时，使用使用detect.py文件时无法调用gpu，下载了pytorch的gpu版本后代码运行会报错，错误信息说是CUDA环境不正确，为此整理了一下CUDA和pytorch

wifi11·2025-05-02 14:18

高校超算中心建设指南：Slurm调度器与GPU资源共享的20个陷阱（清华/中科大真实案例）

在高校超算中心的建设实践中，Slurm调度器与GPU资源管理是两大核心课题。本文基于清华大学、中国科学技术大学等机构的真实运维案例，总结出20个关键陷阱及解决方案，供高校科研人员参考。

学术猿之吻·2025-05-02 12:09

超越CUDA：ROCm与oneAPI在异构计算中的性能对比实验（国产GPU生态下的开发路径探索）

一、异构计算生态的竞争格局当前异构计算领域呈现“一超多强”格局：英伟达凭借‌CUDA生态‌占据90%以上的AI训练市场份额‌，而AMD的‌ROCm‌与英特尔的‌oneAPI‌通过差异化技术路线持续挑战其垄断地位

学术猿之吻·2025-05-02 12:38

CUDA编程高阶优化：如何突破GPU内存带宽瓶颈的6种实战策略

在GPU计算领域，内存带宽瓶颈是制约性能提升的"隐形杀手"。本文面向具备CUDA基础的研究者，从寄存器、共享内存到TensorCore，系统剖析6项突破性优化策略，助你充分释放GPU算力。

学术猿之吻·2025-05-02 12:08

GPU虚拟化技术在分布式训练中的落地难题与解决方案

在高校实验室中，GPU资源的高效利用是支撑分布式训练、大模型研究的关键。然而，多课题组共享GPU集群时普遍存在‌资源碎片化、隔离性不足、调度效率低‌等问题。

学术猿之吻·2025-05-02 12:08

CUDA编程优化：如何实现矩阵计算的100倍加速

根据NVIDIAAmpere架构白皮书，A100GPU的理论计算峰值（FP32）为19.5TFLOPS，但原生CUDA代码往往只能达到5-8%的理论值。

学术猿之吻·2025-05-02 12:38

NVIDIA H100 vs A100：新一代GPU架构性能对比分析

一、核心架构演进对比‌Ampere架构（A100）‌采用台积电7nm工艺，集成540亿晶体管，配备6,912个CUDA核心和432个第三代TensorCore，支持FP16、TF32和INT8精度计算。

学术猿之吻·2025-05-02 12:37

国产GPU破局之路：摩尔线程与景嘉微的技术路线对比

引言：国产GPU的双轨突围在英伟达占据全球AI芯片市场90%份额的背景下，国产GPU企业正通过差异化技术路线谋求突破。摩尔线程与景嘉微分别代表了全功能通用GPU与垂直领域专用GPU的两大方向。

学术猿之吻·2025-05-02 12:37

‌博士生存指南：如何用3个月从PyTorch进阶CUDA核函数开发？‌

对于深度学习领域的博士生，掌握CUDA核函数开发能力意味着能突破框架限制、实现算法级性能优化。

学术猿之吻·2025-05-02 12:07

解决stable-diffusion-webui时的问题：No module ‘xformers‘. Proceeding without it

xformers非强制安装；可优化显存，提高性能和出图速率，对于GPU能力有限的用户很有用；安装过程会调整pytorch版本以适配xformers安装版本。

whistle哨子·2025-05-02 05:20

DeepSeek本地部署及WebUI可视化完全指南

赛博AI Lewis·2025-05-02 03:35

Windows系统下MinerU的CUDA加速配置指南

Windows系统下MinerU的CUDA加速配置指南快速解锁GPU性能，提升文档解析效率1、简介MinerU是一款高效的文档解析工具，支持通过CUDA加速显著提升处理速度。

林语微光·2025-05-02 00:48

DeepSeek 本地化部署的最佳实践

选择合适的硬件：Windows：依赖CUDA和NVIDIA驱动，推荐使用RTX30/40系列。大模型需借助量化或模型分片技术。macOS：仅限AppleSi

AI方案2025·2025-05-02 00:14

Python&aconda系列：（W&L）Conda使用faiss-gpu报错及解决办法、安装numpy的坑、cmd执行Python脚本找不到第三方库、安装tensorflow-gpu时遇到的from

这里写目录标题一.通过AnacondaPrompt搭建faiss-gpu1.7.0和tensorflow-gpu1.13.1的联合环境二.安装tensorflow-gpu时遇到的fromtensorflow.pythonimportpywrap_tensorflow

坦笑&&life·2025-05-01 23:13

AI大模型基础设施：NVIDIA的用于AI大语言模型训练和推理的几款主流显卡

英伟达（NVIDIA）在AI大语言模型（LLM）的训练和推理领域占据主导地位，其GPU因强大的并行计算能力和专为深度学习优化的架构而广受青睐。

InnoLink_1024·2025-05-01 23:39

深度学习框架：PyTorch使用教程！！

PyTorch使用教程2.1入门阶段2.1.1环境安装与配置2.1.2Tensor基础操作2.1.3自动求导（Autograd）2.1.4构建神经网络（nn模块）2.1.5损失函数与优化器2.2进阶阶段2.2.1GPU

JOYCE_Leo16·2025-05-01 15:22

2025云服务器实战手册：从技术架构到商业增长的全链路指南

年云服务器已突破「中心化」架构限制，形成「边缘节点+区域中心+超级云脑」的三级体系：边缘计算：华为云Atlas500实现5ms级实时响应，制造企业质检效率提升40%异构集群：阿里云GN7i实例支持CPU+GPU

国际云·2025-05-01 15:51

【计算机视觉】目标检测：深度解析Detectron2：Meta开源目标检测与图像分割框架实战指南

开源目标检测与图像分割框架实战指南技术架构与设计哲学核心设计理念关键技术组件环境配置与安装硬件建议配置详细安装步骤实战流程详解1.自定义数据集准备2.模型配置与训练3.模型评估与推理核心功能扩展1.自定义模型架构2.混合精度训练3.分布式训练常见问题与解决方案1.CUDA

白熊188·2025-05-01 14:40

云GPU服务器上使用JupyterLab进行深度学习

在云GPU服务器上使用JupyterLab可以为深度学习任务提供便利和灵活性。本文将介绍如何在恒源云的云GPU服务器上配置和使用JupyterLab进行深度学习。

YgjWeb·2025-05-01 11:55

使用RTX3080显卡搭建基于Pycharm+Python+Cuda+cuDNN+TensorFlow的深度学习开发环境

blog.csdn.net/tjhyx2012/article/details/112955582作为一名新手，也是出于兴趣，我通过查找有关资料，使用RTX3080显卡搭建了基于Pycharm+Python+Cuda

时光如昨·2025-05-01 08:02

pytorch原地操作无法反向传播

RuntimeError:oneofthevariablesneededforgradientcomputationhasbeenmodifiedbyaninplaceoperation:[torch.cuda.FloatTensor

。。。DY·2025-05-01 05:43

gem5-gpu 安装过程碰到的问题记录关于使用 Ruby + Garnet

要使用gem5-gpu+garnet，您可能需要修改python配置脚本。

事橙1999·2025-05-01 04:08

推荐频道

cuda(GPU