gpu 第6页

CUDA out of memory内存碎片解决方法

RuntimeError:CUDAoutofmemory.Triedtoallocate704.00MiB(GPU0;16.00GiBtotalcapacity;13.55GiBalreadyallocated

weixin_42319617·2025-06-24 17:28

PyTorch的Tensor与Variable的区别， detach的作用, with no_grad()

1.cuda()与cpu()用法:tensorA.cuda()#tensorA是一个tensor类型的变量作用：把tensorA从CPU移动到GPU，方便后续在GPU中计算用法：modelA.cuda(

半张紙·2025-06-24 17:26

从7B到671B：DeepSeek R1大模型微调的GPU选型终极指南

这种指数级增长不仅考验硬件工程师的决策能力，更揭示了算力投资的核心法则：选错GPU的代价，远不止于训练失败——轻则增加30%推理延迟，重则造成百万级硬件成本的浪费。我们

卓普云·2025-06-24 17:54

20倍推理加速秘诀！揭秘批处理（Batching）的底层优化逻辑 | 附工业级调优指南

例如：单样本推理：输入=[样本1]→输出=[结果1]批处理推理：输入=[样本1,样本2,...,样本N]→输出=[结果1,结果2,...,结果N]关键技术价值：通过并行计算最大化硬件利用率，尤其对GPU

Lilith的AI星球·2025-06-24 14:07

GPU 寿命的物理极限：实验室服务器运维的科学方法论

1.GPU衰减的物理机制解析1.1热力学衰减模型阿伦尼乌斯方程应用：k=A⋅e−Ea/(kBT)k：化学反应速率（电子迁移速度）Ea：激活能（约0.5-1.0eV）T：绝对温度（℃+273.15）寿命计算公式

Finehoo·2025-06-24 06:16

C#.VB.NET多线程，多用户下独立锁和全局锁的区别

用户WebSocket信息类PublicClassUserWebSocketInfoPublicPropertySessionIDAsStringPublicPropertyWebSocketAsWebSocketPublicPropertyLastResponseTimeAsDateTimePublicPropertyPendingHeartbeatCou

专注VB编程开发20年·2025-06-24 01:17

【TVM 教程】在 TVM 中使用 Bring Your Own Datatypes

ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。

·2025-06-23 22:20

Ubuntu24.04 ProteinMPNN安装

3.9condaactivateproteinmpnncondainstallpytorch=1.12.0torchvision=0.13.0torchaudiocudatoolkit=11.3-cpytorch#不指定的话cudapytorch和GPU

lamovrevx·2025-06-23 15:02

本地部署大语言模型

一、硬件准备本地部署大语言模型对硬件有一定的要求，主要集中在显卡（GPU）和内存（RAM）上。由于大语言模型通常具有庞大的参数量和计算量，因此需要强大的硬件支持。

小俊学长·2025-06-23 14:59

TensorFlow 安装与 GPU 驱动兼容（h800）

环境说明TensorFlow安装与GPU驱动兼容CUDA/H800特殊注意事项PyCharm和终端环境变量设置方法测试GPU是否可用的Python脚本#使用TensorFlow2.13在NVIDIAH800

weixin_44719529·2025-06-23 07:17

非root用户在服务器（linux-Ubuntu16.04）上安装cuda和cudnn，tensorflow-gpu1.13.1

1.准备工作（下载CUDA10.0和cudnn安装包）查看tensorflow和CUDA，cudnn的版本的对应关系，从而选择合适的版本进行下载下载CUDA10.0安装包，点击官网进行下载，根据服务器的具体情况选择对应的版本，如下图所示下载完毕后得到安装包cuda_10.0.130_410.48_linux.run下载cudnn，选择CUDA10.0对应的版本（需要注册登录nvidia账号），点击

码小花·2025-06-23 07:16

如何安装Tensorflow和GPU配置

课题组某一台服务器升级后，很多环境丢失了，4块3090的GPU的驱动已安装好，但没有公用的Tensorflow可使用。

神隐灬·2025-06-23 07:45

非 root 用户安装 cuDNN 并配置 TensorFlow 使用 GPU

为非root用户安装cuDNN并配置TensorFlow使用GPU（以CUDA11.5为例）背景说明在科研服务器或非root权限环境下，用户往往无法通过apt或yum安装CUDA/cuDNN。

·2025-06-23 07:12

BEV-Fusion环境配置（RTX4090）

BEV-Fusion环境配置（RTX4090）SystemVersionSystemVer.Ubuntu22.04.5LTSKernelVer.6.8.0-57-genericGPU:RTX4090CudaVersionin

·2025-06-23 06:10

【转载翻译】Open3D和PCL的一些比较

https://github.com/LaplaceKorea/investigate_open3d_vs_pcl/blob/main/README.rst#whats-the-support-for-gpus-look-like-in-open3d

空名Noname·2025-06-23 02:40

单机环境下基于 LLM-Agent 框架的数据查询智能体训练教程

单机环境下基于LLM-Agent框架的数据查询智能体训练教程以下教程介绍如何在单机环境（CPU或1~2张GPU）上，使用LLM-Agent框架搭建并训练一个混合数据源查询智能体。

·2025-06-23 00:53

Oracle第五章PL/SQL基础

Homework-Chapter55.7.1实训Practicaltraining1：PL/SQL基础Basics〖实训目的Trainingpurpose〗（1）学会PL/SQL基本语法；LearnbasicPL

ZShuiShen·2025-06-22 23:49

DirectX function “GetDeviceRemovedReason“ failed with DXGI_ERROR_DEVICE_HUNG (“The GPU will not resp

玩游戏的时候，报错：DirectXfunction“GetDeviceRemovedReason”failedwithDXGI_ERROR_DEVICE_HUNG(“TheGPUwillnotrespondtomorecommands

Roc-xb·2025-06-22 21:02

在VTK中捕捉体绘制图像并实时图像处理

1.核心功能架构主窗口：3D体绘制视图（GPU加速的体积渲染）副窗口：2D截图视图（带高斯模糊后处理）交互机制：副窗口的交互操作会实时影响主窗口的3D视图2.关键组件分析2.1自定义交互器(CustomInteractorStyle

点PY·2025-06-22 20:28

基于腾讯云GPU服务器的深度学习训练技术指南

摘要本文针对深度学习训练场景，系统解析技术核心价值与实施路径，结合腾讯云GPU服务器产品特性，提供从环境搭建到性能优化的完整解决方案。

小猴崽·2025-06-22 15:00

WebGL&图形学总结（二）

GISer_Jinger·2025-06-22 14:48

DeepSpeed 深度学习学习笔记：高效训练大型模型

大型模型训练的挑战随着深度学习模型规模的爆炸式增长（从BERT的几亿参数到GPT-3的千亿参数，再到现在的万亿参数模型），传统的单GPU训练方式变得力不从心，即使是多GPU训练也面临巨大挑战：内存限制(

·2025-06-22 14:16

开发电磁-热-力-流耦合的GPU加速算法（基于NVIDIA Modulus）

一、技术背景与需求分析电磁-热-力-流多物理场耦合问题广泛存在于芯片散热设计、高功率激光器、航空航天热防护系统等场景。传统仿真方法面临以下挑战：计算复杂度爆炸：四场耦合需联立求解Maxwell方程、Navier-Stokes方程、热传导方程及结构动力学方程，单次仿真耗时可超100小时（基于CPU集群）；跨尺度建模困难：纳米级电磁热点与毫米级热流场需不同网格精度，传统有限元法（FEM）难以统一；实时

百态老人·2025-06-22 13:11

OpenCV CUDA模块设备层-----在 GPU上计算反双曲正切函数atanh()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述对输入的uchar1像素值（范围[0,255]），先归一化到[0.0,1.0]浮点区间，然后计算其反双曲正切函数atanh(x)，最终返回一个float1类型的结果。函数原型__device____forceinline__float1cv::cudev::ata

村北头的码农·2025-06-22 04:13

RISC-V向量扩展与GPU协处理：开源加速器设计新范式——对比NVDLA与香山架构的指令集融合方案

点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠当开源指令集遇上异构计算，RISC-V向量扩展（RVV）正重塑加速器设计范式。本文深入对比两大开源架构——NVIDIANVDLA与中科院香山处理器在指令集融合上的创新路径。01开源加速器生态的范式转移RISC-V向量扩展的核心突破RVV1.0标准带来三大革命性特性：1.**可伸缩向

·2025-06-22 02:05

Docker使用宿主机GPU驱动：绕开nvidia docker的神奇方法

0、前言当我们在一个docker的容器中想要使用GPU时，往往需要从dockerimage构建之初就开始使用nvidiadocker。

~LONG~·2025-06-21 19:22

面向AI推理服务的可扩展性设计

面向AI推理服务的可扩展性设计在AI大模型落地的过程中，推理服务往往面临高并发、GPU资源紧张、模型加载延迟等挑战。相比传统业务服务，AI推理服务对算力的依赖更强，运行时资源波动也更大。

·2025-06-21 14:50

资源调度与分配策略

以AI模型推理服务为例，GPU是最关键的计算资源。当一台GPU服务器同时运行多个模型服务实例，如果没有合理的资源调度机制，某些实例可能占用大量显存导致其他实例OOM，甚至拖垮整个节点。

大数据张老师·2025-06-21 14:20

AI Infra：C-S-N-D模型，解码 AI 基础设施的黄金比例

引言：从“算力战争”到“基础设施全景图”过去十年，AI技术的爆发让全球陷入了对算力的争夺战：从GPU到TPU，从千卡集群到超算中心。但当我们真正将AI技术落地于工业

·2025-06-21 13:01

深度学习笔记16-VGG-16算法-Pytorch实现人脸识别

目录前言一、前期准备1.设置GPU2.导入数据3.划分数据集二、调用官方的VGG-16模型三、训练模型1.编写训练函数2.编写测试函数3.设置动态学习率4.正式训练四、结果可视化1.Loss与Accuracy

boooo_hhh·2025-06-21 12:04

tensorflow GPU训练loss与val loss值差距过大问题

问题最近在ubuntugpu上训练模型，训练十轮，结果如下epoch,loss,lr,val_loss200,nan,0.001,nan200,0.002468767808750272,0.001,44.29948425292969201,0.007177405059337616,0.001,49.16984176635742202,0.012423301115632057,0.001,49.30

LXJSWD·2025-06-21 12:03

python pytorch 张量 (Tensor)

目录前言张量Tensor1.张量的基本概念2.创建张量从Python列表或NumPy数组生成特定形状的张量指定设备（CPU/GPU）指定数据类型（dtype）3.张量的属性4.张量的操作数学运算形状操作索引与切片广播机制

Python虫·2025-06-21 11:29

生成本地微调 +强化学习 qwen3-4b 研究搭建流程步骤

一、环境准备硬件要求GPU：至少需要多块高性能GPU（如NVIDIAA100或V100），因为Qwen-3-4B模型参数量大，内存需求高。

行云流水AI笔记·2025-06-21 11:54

查看自己电脑上的显卡内存方法GPU

第一部分：打开cmd输入dxdiag回车第二部分：点击上方显示部分查看可以看到我的这个显卡大小是6G

还不秃顶的计科生·2025-06-21 06:28

什么是 QLoRA（Quantized Low-Rank Adaptation，量化低秩适配）

QLoRA结合了4-bit量化（quantization）和LoRA的低秩更新技术，使超大规模模型（如70B参数的LLaMA）能够在单GPU上进行高效微调，同时保持与全参数微调相近的性能。

彬彬侠·2025-06-21 06:23

windows10 + python -m bitsandbytes

python-mbitsandbytes-UDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation

mawenju·2025-06-21 06:22

解决docker下的Linux系统调用GPU失败

从以下网址下载：https://mirror.cs.uchicago.edu/nvidia-docker/libnvidia-container/stable/#完全移除所有nvidia容器相关包sudoaptpurgelibnvidia-container*nvidia-container*nvidia-docker*#重新安装（确保所有包版本一致）sudodpkg-ilibnvidia-con

Alphapeople·2025-06-21 05:18

Linux DRM 理解

本文从如下几个部分介绍1.DRM概念介绍2.对比HW结构分析3.code分析1.DRM概念介绍DRM是DirectRenderManager的缩写：Linux显示子系统结构框架向上提供标准API给到应用使用管理GPU

And乔·2025-06-21 04:12

linux drm子系统,Linux DRM那些事-内核代码

root@ubuntu:/home/run/code/rockchip-bsp/kernel/drivers/gpu/drm#lsamddrm_atomic.cdrm_crtc_internal.hdrm_fb_cma_helper.cdrm_internal.hdrm_modes.cdrm_rect.cexynosmgarcar-duttmarmadadrm_atomic_helper.cdrm

weixin_39523887·2025-06-21 04:41

炸裂提速！PyTorch 2.2 Torch.compile优化器实战：从原理到模型训练加速300%全攻略

一、引言：深度学习训练性能的革命性飞跃1.1传统训练模式的性能瓶颈在深度学习模型训练中，传统PyTorch训练模式面临诸多挑战：计算效率低下：某计算机视觉模型在A100GPU上训练，单步迭代耗时达800ms

游戏人生的NPC·2025-06-20 14:41

别让GPU摸鱼！榨干它！

早期，人们依靠增加GPU数量提升模型性能。

九章云极DataCanvas·2025-06-20 10:13

【CUDA】认识CUDA

CUDA的作用CUDA是NVIDIA提供的一种并行计算平台和编程模型，它允许开发者通过编写程序利用GPU的强大算力完成复杂的科学运算任务。

Gappsong874·2025-06-20 10:38

FairyGUI学习

DC就是CPU通知GPU进行一次渲染的命令如果DC次数较多会导致游戏卡顿我们可以通过打图集，将小图合并成大图，将本应n次的DC变成1次DC来提高性能知识点二FairyGUI和UGUI以及NGUI的DrawCall

future1412·2025-06-20 08:50

Keras深度学习框架第十四讲：使用TensorFlow进行多GPU分布式训练

使用TensorFlow进行多GPU分布式训练1、绪论1.1使用TensorFlow进行多GPU分布式训练概念TensorFlow是一个流行的开源机器学习框架，它支持多GPU分布式训练，允许开发者利用多个

MUKAMO·2025-06-20 06:37

【Pytorch、torchvision、CUDA 各个版本对应关系以及安装指令】

CUDA旨在利用NVIDIAGPU（图形处理单元）的强大计算能力来加速各种科学计算、数值模拟和深度学习任务。GPU并行计算C

CL_Meng77·2025-06-19 18:08

GPU 服务器：高性能计算的强大引擎

一、GPU服务器概述GPU服务器是一种专门为处理复杂计算任务而设计的服务器。它配备了高性能的图形处理单元（GPU），能够在深度学习、科学计算、视频编解码等多个领域发挥强大的作用。

海域云李潮海·2025-06-19 17:32

Open3D--core模块函数详解

1.设备管理(Device)管理计算设备（CPU/GPU/CUDA）的配置与状态检查。

X-Vision·2025-06-19 15:18

游戏引擎架构全景：从硬件到玩法的程序员之旅

一、基石：硬件、OS与第三方王国硬件层：PS5的定制SSD、XboxSeriesX的GPU、高端PC的RTX显卡——这些是引擎的物理疆域。代码在此直面硅基世界的限制（内存带宽、浮点算力、缓存延迟）。

还债大湿兄·2025-06-19 10:45

推荐文章：Faster_Mean_Shift - GPU加速的像素嵌入框架利器

乌芬维Maisie·2025-06-19 04:34

Ubuntu18.04基于Docker和Pycharm搭建Tensorflow-gpu训练环境

一、前提：安装好pycharm-professional，dockerce，nvidia-docker2，nvidia-gpu驱动。安装方法见各自链接。

城俊BLOG·2025-06-19 01:12

推荐频道

gpu