cuda(GPU 第8页

深度学习笔记16-VGG-16算法-Pytorch实现人脸识别

目录前言一、前期准备1.设置GPU2.导入数据3.划分数据集二、调用官方的VGG-16模型三、训练模型1.编写训练函数2.编写测试函数3.设置动态学习率4.正式训练四、结果可视化1.Loss与Accuracy

boooo_hhh·2025-06-21 12:04

tensorflow GPU训练loss与val loss值差距过大问题

问题最近在ubuntugpu上训练模型，训练十轮，结果如下epoch,loss,lr,val_loss200,nan,0.001,nan200,0.002468767808750272,0.001,44.29948425292969201,0.007177405059337616,0.001,49.16984176635742202,0.012423301115632057,0.001,49.30

LXJSWD·2025-06-21 12:03

python pytorch 张量 (Tensor)

目录前言张量Tensor1.张量的基本概念2.创建张量从Python列表或NumPy数组生成特定形状的张量指定设备（CPU/GPU）指定数据类型（dtype）3.张量的属性4.张量的操作数学运算形状操作索引与切片广播机制

Python虫·2025-06-21 11:29

生成本地微调 +强化学习 qwen3-4b 研究搭建流程步骤

一、环境准备硬件要求GPU：至少需要多块高性能GPU（如NVIDIAA100或V100），因为Qwen-3-4B模型参数量大，内存需求高。

行云流水AI笔记·2025-06-21 11:54

Day33 MLP神经网络的训练

目录一、PyTorch和cuda的安装二、查看显卡信息的命令行命令（cmd中使用）三、cuda的检查四、简单神经网络的流程1、数据预处理（归一化、转换成张量）2、模型的定义3、定义损失函数和优化器4、定义训练流程

cylat·2025-06-21 07:07

查看自己电脑上的显卡内存方法GPU

第一部分：打开cmd输入dxdiag回车第二部分：点击上方显示部分查看可以看到我的这个显卡大小是6G

还不秃顶的计科生·2025-06-21 06:28

什么是 QLoRA（Quantized Low-Rank Adaptation，量化低秩适配）

QLoRA结合了4-bit量化（quantization）和LoRA的低秩更新技术，使超大规模模型（如70B参数的LLaMA）能够在单GPU上进行高效微调，同时保持与全参数微调相近的性能。

彬彬侠·2025-06-21 06:23

windows10 + python -m bitsandbytes

python-mbitsandbytes-UDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation

mawenju·2025-06-21 06:22

解决docker下的Linux系统调用GPU失败

从以下网址下载：https://mirror.cs.uchicago.edu/nvidia-docker/libnvidia-container/stable/#完全移除所有nvidia容器相关包sudoaptpurgelibnvidia-container*nvidia-container*nvidia-docker*#重新安装（确保所有包版本一致）sudodpkg-ilibnvidia-con

Alphapeople·2025-06-21 05:18

Linux DRM 理解

本文从如下几个部分介绍1.DRM概念介绍2.对比HW结构分析3.code分析1.DRM概念介绍DRM是DirectRenderManager的缩写：Linux显示子系统结构框架向上提供标准API给到应用使用管理GPU

And乔·2025-06-21 04:12

linux drm子系统,Linux DRM那些事-内核代码

root@ubuntu:/home/run/code/rockchip-bsp/kernel/drivers/gpu/drm#lsamddrm_atomic.cdrm_crtc_internal.hdrm_fb_cma_helper.cdrm_internal.hdrm_modes.cdrm_rect.cexynosmgarcar-duttmarmadadrm_atomic_helper.cdrm

weixin_39523887·2025-06-21 04:41

Ubuntu20.04LTS 安装 mmdetection 全记录

Ubuntu20.04LTS安装mmdetection全记录环境需求准备工作anaconda安装gcc/g++安装安装nvidia显卡驱动安装CUDA正式安装mmdetection创建一个conda虚拟环境安装

·2025-06-20 20:46

【CUDA编程】Dim3

dim3是CUDA编程中用于定义线程块（Block）和网格（Grid）维度的三维向量结构体，本质是包含三个无符号整数成员（x、y、z）的轻量级容器。

量化投资和人工智能·2025-06-20 16:20

Pytorch深度学习入门基础（二）：python 编辑器的选择、安装及配置（ pycharm、 jupyter）

目录一、下载pycharm1.下载pycharm2.pycharm配置3.检查pycharm环境是否配置好二、Jupyter安装三、常见问题：1.为什么torch.cuda.isavailable()为

慕奕宸·2025-06-20 15:48

炸裂提速！PyTorch 2.2 Torch.compile优化器实战：从原理到模型训练加速300%全攻略

一、引言：深度学习训练性能的革命性飞跃1.1传统训练模式的性能瓶颈在深度学习模型训练中，传统PyTorch训练模式面临诸多挑战：计算效率低下：某计算机视觉模型在A100GPU上训练，单步迭代耗时达800ms

游戏人生的NPC·2025-06-20 14:41

OpenCV CUDA模块设备层-----反正弦运算函数asin()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述对一个uchar类型的像素值（范围[0,255]），先归一化到浮点范围[0.0,1.0]，然后计算其反正弦值asin(x)，最终返回一个float1类型的结果。函数原型__device____forceinline__float1cv::cudev::asin(c

村北头的码农·2025-06-20 12:57

cuda利用共享内存高效矩阵转置

文章目录目录文章目录前言一、参考链接二、矩阵转置1.一些概念①cuda的概念②矩阵和线程2.串行转置3.并行基础矩阵转置4.使用共享内存的矩阵转置总结前言共享内存的存在可以帮助我们更快速的写入和读取数据

PartyAnimal_w·2025-06-20 12:23

别让GPU摸鱼！榨干它！

早期，人们依靠增加GPU数量提升模型性能。

九章云极DataCanvas·2025-06-20 10:13

【CUDA】认识CUDA

CUDA的作用CUDA是NVIDIA提供的一种并行计算平台和编程模型，它允许开发者通过编写程序利用GPU的强大算力完成复杂的科学运算任务。

Gappsong874·2025-06-20 10:38

FairyGUI学习

DC就是CPU通知GPU进行一次渲染的命令如果DC次数较多会导致游戏卡顿我们可以通过打图集，将小图合并成大图，将本应n次的DC变成1次DC来提高性能知识点二FairyGUI和UGUI以及NGUI的DrawCall

future1412·2025-06-20 08:50

Keras深度学习框架第十四讲：使用TensorFlow进行多GPU分布式训练

使用TensorFlow进行多GPU分布式训练1、绪论1.1使用TensorFlow进行多GPU分布式训练概念TensorFlow是一个流行的开源机器学习框架，它支持多GPU分布式训练，允许开发者利用多个

MUKAMO·2025-06-20 06:37

CUDA，NVCC和LLVM

本文序：⛰️本文介绍：本文是整个编译原理专栏的相关知识的补充（注：因编者时间有限，所以有一些图片来源于网络，为了尊重原作者，所以选择保留水印)⚓本文食用方法：本文介绍了CUDA，NVCC和LLVM。

Yulong Huang·2025-06-19 23:55

【Pytorch、torchvision、CUDA 各个版本对应关系以及安装指令】

Pytorch、torchvision、CUDA各个版本对应关系以及安装指令更多内容，可以移步到我的小红薯哦（复旦孟博士）1、名词解释1.1CUDACUDA（ComputeUnifiedDeviceArchitecture

CL_Meng77·2025-06-19 18:08

python打卡day52

随机种子内参的初始化神经网络调参指南参数的分类调参的顺序各部分参数的调整心得参数可视化importtorchimporttorch.nnasnnimportmatplotlib.pyplotaspltimportnumpyasnp#设置设备device=torch.device("cuda

ZHPEN1·2025-06-19 17:04

GPU 服务器：高性能计算的强大引擎

一、GPU服务器概述GPU服务器是一种专门为处理复杂计算任务而设计的服务器。它配备了高性能的图形处理单元（GPU），能够在深度学习、科学计算、视频编解码等多个领域发挥强大的作用。

海域云李潮海·2025-06-19 17:32

Open3D--core模块函数详解

1.设备管理(Device)管理计算设备（CPU/GPU/CUDA）的配置与状态检查。

X-Vision·2025-06-19 15:18

游戏引擎架构全景：从硬件到玩法的程序员之旅

一、基石：硬件、OS与第三方王国硬件层：PS5的定制SSD、XboxSeriesX的GPU、高端PC的RTX显卡——这些是引擎的物理疆域。代码在此直面硅基世界的限制（内存带宽、浮点算力、缓存延迟）。

还债大湿兄·2025-06-19 10:45

opencv中常用cuda函数总结

bitwise_and()bitwise_not()bitwise_or()bitwise_xor()compare()divide()：除exp()log()max()min()multiply()threshold()：二值化，但要指定设定阈值blendLinear()：两幅图片的线形混合calcHist()createBoxFilter()：创建一个规范化的2D框过滤器canny边缘检测cr

Ring__Rain·2025-06-19 05:14

推荐文章：Faster_Mean_Shift - GPU加速的像素嵌入框架利器

乌芬维Maisie·2025-06-19 04:34

Ubuntu18.04基于Docker和Pycharm搭建Tensorflow-gpu训练环境

一、前提：安装好pycharm-professional，dockerce，nvidia-docker2，nvidia-gpu驱动。安装方法见各自链接。

城俊BLOG·2025-06-19 01:12

快速分辨率调整工具：一键切换与性能优化

它还帮助用户减轻GPU负担，提升系统响应速度，尤其适合低配置设备。用户只需双击可执行文件名“设置与降低分辨率(Ctrl+Alt+F7).exe”，即可轻松操作。然而，在使用过程中，用户应确保

温融冰·2025-06-19 00:07

云端算力革命：川翔云电脑如何重新定义创作自由

川翔云电脑以云端算力为支点，通过弹性算力、高效存储、多端接入三大核心优势，让顶级GPU资源触手可及。

渲染101专业云渲染·2025-06-18 21:46

OpenCV CUDA模块设备层-----用于CUDA 使用纹理内存的一个类模板TextureOff()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::cudev::TextureOff是OpenCV的CUDA

村北头的码农·2025-06-18 14:29

OpenCV CUDA模块设备层---- 绝对值函数abs()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述这是OpenCV的cv::cudev模块中用于CUDA设备端（device

村北头的码农·2025-06-18 14:29

OpenCV CUDA模块图像变形------对图像进行GPU加速的仿射变换函数warpAffine()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该函数用于对图像进行GPU加速的仿射变换（AffineTransformation

村北头的码农·2025-06-18 14:59

docker容器内运行依赖GPU的程序

我的开发环境centos7docker版本为2.10.22080ti显卡，物理机已安装cuda10和对应显卡驱动运行带GPU的docker给linux安装nvidia-container-toolkitdistribution

LensonYuan·2025-06-18 13:20

VSCode部署Pytorch机器学习框架使用Anaconda（Window版）

Anaconda1.1下载安装包1.Anaconda官网下载2安装Anaconda1.2创建虚拟环境1.3常用命令Conda命令调试和日常维护1.4可能遇到的问题执行上述步骤后虚拟环境仍在C盘2.配置cuda2.1

JjWang__HUST·2025-06-18 13:47

DeepSeek 大型 MoE 模型大规模部署压测学习

-large-scale-ep/以上是对文章《DeployingDeepSeekwithPDDisaggregationandLarge-ScaleExpertParallelismon96 H100GPUs

andyguo·2025-06-18 12:14

【CUDA编程】OptionalCUDAGuard详解

OptionalCUDAGuard是PyTorch的CUDA工具库（c10/cuda）中用于安全管理GPU设备上下文的RAII（ResourceAcquisitionIsInitialization）类

量化投资和人工智能·2025-06-18 11:34

CUDA开发工具整理

在WSL下进行CUDA开发时，高效的工具链能显著提升开发体验。

·2025-06-18 11:34

【CUDA编程】 C10_CUDA_CHECK 宏详细解析

以下是对C10_CUDA_CHECK宏的详细解析，结合CUDA错误处理机制和PyTorch框架设计进行说明：一、宏定义结构解析#defineC10_CUDA_CHECK(EXPR)\do{\constcudaError_t

量化投资和人工智能·2025-06-18 10:32

JAX革命性优势解剖：GPU/TPU自动并行计算实战

近年来，大模型训练与科学计算对算力的需求呈现指数级增长。传统框架面临硬件绑定深、并行编码复杂、跨平台迁移成本高三大痛点。Google开源的JAX框架通过函数式编程范式、XLA编译优化与自动并行原语，正在重塑高性能计算的技术栈。一、JAX核心优势：三位一体的技术突破1.1函数式编程+即时编译（JIT）与PyTorch/TensorFlow的面向对象范式不同，JAX强制纯函数设计：#传统PyTorch

AI咸鱼保护协会·2025-06-18 10:58

CUDA核函数优化进阶：利用Shared Memory实现矩阵计算10倍加速

在NVIDIAA100上优化1024×1024矩阵乘法时，共享内存策略将计算速度从3.2TFLOPS提升至31.5TFLOPS——本文将揭示如何通过内存访问优化突破GPU计算瓶颈。

AI咸鱼保护协会·2025-06-18 10:57

AWS EC2 终极指南：如何选择预装 GPU 驱动和特定功能的最佳 AMI

选择一个合适的AMI，尤其是需要预装GPU驱动或特定软件栈时，能让你跳过繁琐的配置，直接进入核心工作。本文将深入解析AMI分类，并手把手教你找到最适合你需求的镜像。一、为什么AMI选择如此重要？

ivwdcwso·2025-06-18 02:38

使用开源NVIDIA cuOpt加速决策优化

使用开源NVIDIAcuOpt加速决策优化文章目录使用开源NVIDIAcuOpt加速决策优化决策优化的现实挑战供应链优化的复杂性实时决策的挑战计算复杂性的挑战NVIDIAcuOpt：GPU加速的决策优化解决方案

扫地的小何尚·2025-06-18 02:05

Conda 是什么？为什么开发者离不开它？

核心能力拆解功能解决问题类比说明环境隔离不同项目需不同Python版本或库版本像“仓库分区”，互不干扰跨语言包管理安装Python/C++/R等混合依赖（如CUDA工具包）比pip更全能，支持非Python

摘取一颗天上星️·2025-06-17 23:19

✨零基础手把手｜Docker+vLLM极速部署OpenAI风格API：5分钟4卡GPU推理+避坑指南+完整镜像配置

一、Docker基础命令查看容器状态dockerps#查看运行中的容器dockerps-a#查看所有容器（包括已停止的）查看镜像列表dockerimages#列出本地所有镜像二、镜像与容器操作镜像打包为.tar文件dockersave-o#将镜像导出为.tar文件#示例：dockersave-omy_image.tarvllm/vllm-openai:v0.8.4打包多个镜像到一个文件docker

·2025-06-17 18:16

如何用PyTorch构建第一个神经网络？——从环境搭建到实战部署的零基础指南

这几年带学员入门深度学习时，发现90%的新手都会卡在「第一个神经网络构建」上：有人装环境时被CUDA版本搞晕，有人写模型时分不清nn.Module和nn.Sequential，还有人训练时遇到梯度不更新的问题

唐宇迪（学习规划+技术答疑）·2025-06-17 18:42

torch.load

它支持从文件路径或文件对象加载数据，并可以指定设备（CPU或GPU）。

土豆羊626·2025-06-17 16:32

SnapViewer：解决PyTorch官方内存工具卡死问题，实现高效可视化

在深度学习模型训练过程中，GPU内存不足（OutofMemory,OOM）错误是开发者频繁遇到的技术挑战。

·2025-06-17 16:48

推荐频道

cuda(GPU