cuda(GPU 第17页

window 显示驱动开发-视频内存管理和 GPU 计划

视频内存管理器（VidMm）是DirectX图形内核（Dxgkrnl）中系统提供的组件，负责管理GPU的内存。

程序员王马·2025-05-09 22:41

CUDA：out of memory的解决方法（实测有效）

一、问题概述1.问题分析CUDAoutofmemory问题通常发生在深度学习训练过程中，当GPU的显存不足以容纳模型、输入数据以及中间计算结果时就会触发。

摆烂仙君·2025-05-09 20:30

使用paddlepaddle框架构建ViT用于CIFAR10图像分类

使用paddlepaddle框架构建ViT用于CIFAR10图像分类硬件环境：GPU(1*NVIDIAT4)运行时间：一个epoch大概一分钟importpaddleimporttimeimportpaddle.nnasnnimportpaddle.nn.functionalasFimportpaddle.vision.transformsastransformsfrompaddle.ioimpo

sherlockjjobs·2025-05-09 05:52

从Ampere到Hopper：GPU架构演进对AI模型训练的颠覆性影响

一、GPU架构演进的底层逻辑AI大模型训练效率的提升始终与GPU架构的迭代深度绑定。

学术猿之吻·2025-05-09 04:44

量子机器学习中的GPU加速实践：基于CUDA Quantum的混合编程模型探索

本文聚焦于‌CUDAQuantum混合编程模型‌，深入探讨如何通过GPU加速技术突破量子机器学习的算力瓶颈。我们将结合NVIDIA最新量子计算框架，解析量子-经

九章云极AladdinEdu·2025-05-09 01:56

GPU软硬件架构协同设计解析

GPU软硬件架构协同设计解析GPU（图形处理器）的软硬件协同设计是其在通用计算和高性能计算（HPC）领域取得突破的核心原因。以下从硬件架构、软件架构、协同设计的关键技术及典型案例展开深度解析。

ShineSpark·2025-05-09 01:26

解决Tensorflow找不到GPU的问题

Tensorflow找不到GPU问题发现问题解决当我用以下代码查看GPU数量时，gpus返回的是一个空列表，说明tensorflow没有找到GPU。

小猪皮蛋粥·2025-05-09 01:54

Lapce：Rust 打造的极速代码编辑器，Vim党狂喜！

核心优势性能怪兽纯Rust编写，GPU加速渲染（Wgpu），启动快如闪电，按键零延迟采用Xi-Editor的RopeScience文本处理技术，大文件编辑流畅不卡顿开发者友好内置LSP：支持代码补全、诊断

a小胡哦·2025-05-09 00:19

Python 3D FDTD模拟器

FDTD模拟器有一个可选的PyTorch后端，支持GPU上的FDTD模拟。

Xiao_Linhu·2025-05-08 19:50

dstack 是 Kubernetes 和 Slurm 的开源替代方案，旨在简化 ML 团队跨顶级云、本地集群和加速器的 GPU 分配和 AI 工作负载编排

一、软件介绍文末提供程序和源码下载dstack是Kubernetes和Slurm的开源替代方案，旨在简化顶级云和本地集群中ML团队的GPU分配和AI工作负载编排。

2301_78755287·2025-05-08 12:35

mac 使用 Docker 安装向量数据库Milvus独立版的保姆级别教程

Milvus特点：开源的云原生向量数据库，支持多种索引类型和GPU加速，能够在亿级向量规模下实现低延迟高吞吐。具有灵活的部署选项和强大的社区支持。

JJJ@666·2025-05-08 12:32

Meta 推出 24k GPU AI 基础设施设计

Meta最近宣布设计两个新的AI计算集群，每个集群包含24,576个GPU。

普通的一个普通猿·2025-05-08 09:17

报错未解决：python3.6.12+ pytorch1.4.0 tookit/cuda10.0

Collectingpackagemetadata(current_repodata.json):doneSolvingenvironment:failedwithinitialfrozensolve.Retryingwithflexiblesolve.Solvingenvironment:failedwithrepodatafromcurrent_repodata.json,willretryw

Tony Einstein·2025-05-08 09:44

XCZU19EG-2FFVC1760I Xilinx赛灵思FPGA Zynq UltraScale+MPSoC

EnhancedGeneral）系列，采用20nmFinFET+工艺制造，该型号的速度等级为-2（0.85VVCCINT）、工业级温度（-40℃至+100℃），典型应用核心频率为APU最高1.3GHz，RPU600MHz，GPU667MHz

XINVRY-FPGA·2025-05-08 05:17

AI大模型基础设施：NVIDIA GPU和AMD MI300系列的区别

本文将从架构设计、性能、内存、功耗、软件生态、价格与性价比、供应链与市场表现等多个维度对比英伟达的GPU（以H100为代表）和AMD的InstinctMI300系列处理器（以MI300XGPU和MI300AAPU

InnoLink_1024·2025-05-07 23:45

AI 学习笔记：在 Macbook M1上对 DeepSeek进行无 GPU 环境下的 SFT微调，Transformers+LoRA，已跑通并出结果。

一、背景通用模型除了挂载知识库，去回答垂类问题以外，还有就是做SFT的微调，而大多数人其实是没有英伟达显卡的，但又挡不住学习的渴望，还想在老旧的电脑上去尝试微调，而我翻看了很多教程，都没有一个完整能够完全跑通的完整案例，决定一定要整一个出来。二、目标在没有专业显卡的普通笔记本上去做Deepseek的微调，将它由一个通用模型改造为能够回答专业医疗问题的模型。它的特点是：微调电脑只有集成显卡，纯CPU

极极光·2025-05-07 23:42

CUDA：实现NPP过滤器实例

CUDA：实现NPP过滤器实例#ifdefined(WIN32)||defined(_WIN32)||defined(WIN64)||defined(

源代码大师·2025-05-07 16:59

错误信息 ModuleNotFoundError: No module named ‘vllm._C‘解决方法（windows下暂未找到解决办法，待补充）

结合日志中的Triton警告，可能原因包括：•CUDA环境配置错误（版本不匹配或驱动异常）•vLLM安装时未正确编译C++扩展（常见于Windows系统）•

老兵发新帖·2025-05-07 13:09

【PyTorch】PyTorch深度学习框架实战（二）：torchrun

PyTorch既可以看作加入了GPU支持的numpy，同时也可以看成一个拥有自动求导功能的强大的深度神经网络。

LDG_AGI·2025-05-07 12:29

conda 安装cudnn

通过Conda安装cuDNN确保你有NVIDIAGPU和CUDAToolkit：首先，确保你的系统上安装了NVIDIAGPU和CUDAToolkit。

前行居士·2025-05-07 11:28

TensorRT plugin插件编写

TensorRTplugin插件编写参考CUDA与TensorRT部署部署实战第四章实现TensorRT自定义插件(plugin)自由！

Darchan·2025-05-07 11:55

模型部署技巧（一）

模型部署技巧（一）以下内容是参考CUDA与TensorRT模型部署内容第六章，主要针对图像的前/后处理中的trick。

Darchan·2025-05-07 10:52

AI一周热点事件（全球AI新闻-2025年3月17日至3月24日）

关键公告包括：新的GPU技术：CEOJensenHuang在3月18日的主题演讲中推出了BlackwellUltr

俊哥V·2025-05-07 07:04

国产算力平台 × NVIDIA GPU 混合部署全流程实战：昇腾 / 寒武纪与异构推理系统集成解析

国产算力平台×NVIDIAGPU混合部署全流程实战：昇腾/寒武纪与异构推理系统集成解析关键词昇腾310、寒武纪MLU370、NVIDIAA100、异构算力平台、混合部署、AI推理调度、多框架支持、MindX

观熵·2025-05-07 07:02

deepseek-glm4-grpo训练

一、目录1.grpo重新训练已经微调的glm4模型二、实现1.grpo重新训练已经微调的glm4模型1.1指令：CUDA_VISIBLE_DEVICES=1nohuppythontest.py--model_name_or_path

贾亚飞·2025-05-07 06:55

deepseek-glm4-grpo训练

一、目录1.grpo重新训练已经微调的glm4模型二、实现1.grpo重新训练已经微调的glm4模型1.1指令：CUDA_VISIBLE_DEVICES=1nohuppythontest.py--model_name_or_path

贾亚飞·2025-05-07 06:55

torch安装踩坑记录

importtorch报错ImportError:DLLloadfailed:Thespecifiedmodulecouldnotbefoundwin10cuda90torch==1.1.0fromtorch

GISer_流浪·2025-05-07 05:50

Qwen2-VL出现RuntimeError: CUDA error: too many resources requested for launch CUDA kernel errors的解决方案

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Qwen2-VL出现RuntimeE

爱编程的喵喵·2025-05-07 04:44

Vue3 SSR异构渲染引擎：混合现实与时空折叠

一、全景异构渲染架构1.1跨纬度渲染协调系统1.2异构资源分配矩阵资源类型计算密度(FLOPs)内存占用IO吞吐量适用场景WebGPU管线10^124GB120GbpsMetaverse场景WASM渲染核

桂月二二·2025-05-06 23:16

在 i.MX8MP 平台上使用 Vivante GPU 运行 Weston：原理、配置与完整调试指南

一、项目背景与目标本项目旨在构建一个完整的AI图像显示系统，核心流程如下：使用USB摄像头采集图像；基于Chromium浏览器展示AI页面（例如模型识别结果）；通过VivanteGPU实现硬件加速渲染；

嵌入式Jerry·2025-05-06 22:06

安装深度环境anaconda+cuda+cudnn+pycharm＋qt＋MVS

下载cuda链接：https://developer.nvidia.com/cuda-toolkit-archive下载cudnn安装包,链接：https://developer.nvidia.com/

PinoLio·2025-05-06 16:36

部署大型语言模型（LLM）时究竟需要多少GPU显存？来看看这几个例子

引言部署大型语言模型（LLM）时究竟需要多少GPU显存？本文将进行一次简单测算。

鸡腿爱学习·2025-05-06 14:51

DeepSeek语言模型训练方法详解

如果是企业级训练，需要分布式训练和大量GPU；如果是个人使用，可以进行微调，或者使用云服务。要准备数据，比如数据清洗、预处理、分词等。同时，训练过程中的技巧，如学习率调整、正则化、防止过拟合的方法。

暗涧幽火·2025-05-06 12:38

【Python】llama-cpp-python 库：为 llama.cpp 提供 Python 绑定

llama.cpp是一个用C/C++实现的轻量级框架，专注于在CPU和GPU上运行量化模型（如LLaMA、Mistral等），以较低的资源占用实现高性能推理。

彬彬侠·2025-05-06 10:26

C++下的libtorch部署——（三）window10下的Visual Studio配置libtorch

安装libtorch之前，要先安装好cuda以及对应的pytorch。

想要躺平的一枚·2025-05-06 08:08

【深度学习环境配置】Anaconda + Pycharm + CUDA + cuDNN + Pytorch + Opencv

它可以发挥多核进程和GPU加速，用于实时操作。OpenCV应用广泛，包括医疗图片分析，街景图片处理，监视视频，探测和识别面部，追踪移动物体，

生活需要深度·2025-05-06 04:45

cuda+cudnn+pytorch2.2安装

之前安装GPU一直是囫囵吞枣，秉承能用就行的原则，现在尝到了恶果，从这次开始记录电脑的配置环境由于要复现一篇文章代码，他用的torch=2.2，同时由于复现代码导致突然原来的cuda报错OSError:

不是谁只是我·2025-05-06 00:18

DeepSeek智能监控与日志系统架构设计与实践指南

DeepSeek智能监控与日志系统架构设计与实践指南1.主题背景1.1Why：系统重要性在日均处理10亿+推理请求的AI平台中，监控系统实现：实时定位模型服务99.99%可用性异常发现GPU资源利用率从

燃灯工作室·2025-05-05 22:39

NPP库中libnppc模块介绍

主要功能包括：基础数据类型定义（如Npp8u、Npp32f等）内存分配与拷贝（GPU内存管理）向量/矩阵的初级运算错误状态码（NppSta

byxdaz·2025-05-05 18:45

各版本cuDNN驱动下载地址

https://developer.nvidia.com/rdp/cudnn-archiveCUDA9.0：下载网址https://developer.nvidia.com/cuda-90-download-archive

花咪·2025-05-05 11:27

X-AnyLabeling标注环境部署指南

chonpsk·2025-05-05 05:48

Nsight System模型性能分析工具入坑记录

NsightSystem模型性能分析工具入坑记录起因在windows环境下使用torch的profiler+TensorBoard试图进行模型的性能分析，发现在TB上只有CPU的信息，缺少GPU的信息，

chonpsk·2025-05-05 05:47

NoProp：无需反向传播，基于去噪原理的非全局梯度传播神经网络训练，可大幅降低内存消耗

反向传播算法自四十年前问世以来一直作为深度学习的基石，然而仍然面临两项关键技术挑战：首先由于必须存储中间激活值用于梯度计算，导致内存消耗显著；其次其本质上的顺序计算特性严重限制了模型在分布式多GPU环境下的并行扩展能力

·2025-05-05 05:55

抽空给笔记本装个显卡驱动，pytorch+CUDA docker 环境配置

大家好，我是消失了一个小春节的小鱼，春节忙着设计新的小产品，一直在努力，这两天又跑广州来了，今天周末，抽空给笔记本的显卡装个驱动，顺便搞了个pytorch的GPU配置，小鱼折腾的详细步骤如下，希望对你有用

鱼香ROS·2025-05-05 02:55

基于cuda12.1安装pytorch-gpu

因课题需要，特别需要pytorch和tensorflow的gpu版本，为了方便大家装环境，故将这次重装pytorch-gpu过程给大家做个参考，期间需要的安装包也放在某盘了，需要可以自取。

PZLXR·2025-05-05 02:55

pytorch-lightning环境配置记录（win11+anaconda）

我们的需求是CUDA版本，torch版本，lightning版本相匹配。

小蜗牛( ˙-˙ )·2025-05-05 02:24

青少年编程与数学 02-018 C++数据结构与算法 22课题、并行算法

青少年编程与数学02-018C++数据结构与算法22课题、并行算法一、GPU并行计算矩阵乘法示例二、MPI并行计算allgather操作示例三、C++中的并行计算多线程并行计算多进程并行计算四、SIMD

明月看潮生·2025-05-05 00:13

在window10系统64位+python3.10上安装Pytorch3D教程

建议直接下载源码编译，这样最安全本次版本如下：python=3.10torch=2.3.1cuda=11.8注意cuda

ntr亚丝娜（我永远喜欢千花书记）·2025-05-04 23:09

PyTorch与神经网络

张量可以放置在CPU或GPU上，放置在这两者上的张量属于不同的数据类型，CPU上的整型、浮点型、比特型张量数据类型为torch.IntTensor、torch.FloatTensor、torch.ByteTensor

你的凡王·2025-05-04 23:04

Ubuntu24.04安装Anaconda3+Pycharm

Anaconda3和Pycharm及其环境搭建Ubuntu18.04安装Pycharm教程ubuntu系统安装Anaconda及Pycharm在移动硬盘上搭建Ubuntu24.04深度学习环境（Anaconda+CUDA

一个没有本领的人·2025-05-04 20:48

推荐频道

cuda(GPU

window 显示驱动开发-视频内存管理和 GPU 计划

CUDA：out of memory的解决方法（实测有效）

使用paddlepaddle框架构建ViT用于CIFAR10图像分类

从Ampere到Hopper：GPU架构演进对AI模型训练的颠覆性影响

量子机器学习中的GPU加速实践：基于CUDA Quantum的混合编程模型探索

GPU软硬件架构协同设计解析

解决Tensorflow找不到GPU的问题

Lapce：Rust 打造的极速代码编辑器，Vim党狂喜！

Python 3D FDTD模拟器

dstack 是 Kubernetes 和 Slurm 的开源替代方案，旨在简化 ML 团队跨顶级云、本地集群和加速器的 GPU 分配和 AI 工作负载编排

mac 使用 Docker 安装向量数据库Milvus独立版的保姆级别教程

Meta 推出 24k GPU AI 基础设施设计

报错未解决：python3.6.12+ pytorch1.4.0 tookit/cuda10.0

XCZU19EG-2FFVC1760I Xilinx赛灵思FPGA Zynq UltraScale+MPSoC

AI大模型基础设施：NVIDIA GPU和AMD MI300系列的区别

AI 学习笔记：在 Macbook M1上对 DeepSeek进行无 GPU 环境下的 SFT微调，Transformers+LoRA，已跑通并出结果。

CUDA：实现NPP过滤器实例

错误信息 ModuleNotFoundError: No module named ‘vllm._C‘解决方法（windows下暂未找到解决办法，待补充）

【PyTorch】PyTorch深度学习框架实战（二）：torchrun

conda 安装cudnn

TensorRT plugin插件编写

模型部署技巧（一）

AI一周热点事件（全球AI新闻-2025年3月17日至3月24日）

国产算力平台 × NVIDIA GPU 混合部署全流程实战：昇腾 / 寒武纪与异构推理系统集成解析

deepseek-glm4-grpo训练

deepseek-glm4-grpo训练

torch安装踩坑记录

Qwen2-VL出现RuntimeError: CUDA error: too many resources requested for launch CUDA kernel errors的解决方案

Vue3 SSR异构渲染引擎：混合现实与时空折叠

在 i.MX8MP 平台上使用 Vivante GPU 运行 Weston：原理、配置与完整调试指南

安装深度环境anaconda+cuda+cudnn+pycharm＋qt＋MVS

部署大型语言模型（LLM）时究竟需要多少GPU显存？来看看这几个例子

DeepSeek语言模型训练方法详解

【Python】llama-cpp-python 库：为 llama.cpp 提供 Python 绑定

C++下的libtorch部署——（三）window10下的Visual Studio配置libtorch

【深度学习环境配置】Anaconda + Pycharm + CUDA + cuDNN + Pytorch + Opencv

cuda+cudnn+pytorch2.2安装

DeepSeek智能监控与日志系统架构设计与实践指南

NPP库中libnppc模块介绍

各版本cuDNN驱动下载地址

X-AnyLabeling标注环境部署指南

Nsight System模型性能分析工具入坑记录

NoProp：无需反向传播，基于去噪原理的非全局梯度传播神经网络训练，可大幅降低内存消耗

抽空给笔记本装个显卡驱动，pytorch+CUDA docker 环境配置

基于cuda12.1安装pytorch-gpu

pytorch-lightning环境配置记录（win11+anaconda）

青少年编程与数学 02-018 C++数据结构与算法 22课题、并行算法

在window10系统64位+python3.10上安装Pytorch3D教程

PyTorch与神经网络

Ubuntu24.04安装Anaconda3+Pycharm