gpu 第15页

高校超算中心建设指南：Slurm调度器与GPU资源共享的20个陷阱（清华/中科大真实案例）

在高校超算中心的建设实践中，Slurm调度器与GPU资源管理是两大核心课题。本文基于清华大学、中国科学技术大学等机构的真实运维案例，总结出20个关键陷阱及解决方案，供高校科研人员参考。

学术猿之吻·2025-05-02 12:09

超越CUDA：ROCm与oneAPI在异构计算中的性能对比实验（国产GPU生态下的开发路径探索）

二者在国产GPU生态建设中展现出独特价值——ROCm‌：基于开源架构，支持MI系列计算卡和部分消费级显卡，通过HIP兼容层实现CUDA代码迁移，降低开发者学习成本‌oneAPI‌：以DPC

学术猿之吻·2025-05-02 12:38

CUDA编程高阶优化：如何突破GPU内存带宽瓶颈的6种实战策略

在GPU计算领域，内存带宽瓶颈是制约性能提升的"隐形杀手"。本文面向具备CUDA基础的研究者，从寄存器、共享内存到TensorCore，系统剖析6项突破性优化策略，助你充分释放GPU算力。

学术猿之吻·2025-05-02 12:08

GPU虚拟化技术在分布式训练中的落地难题与解决方案

在高校实验室中，GPU资源的高效利用是支撑分布式训练、大模型研究的关键。然而，多课题组共享GPU集群时普遍存在‌资源碎片化、隔离性不足、调度效率低‌等问题。

学术猿之吻·2025-05-02 12:08

CUDA编程优化：如何实现矩阵计算的100倍加速

根据NVIDIAAmpere架构白皮书，A100GPU的理论计算峰值（FP32）为19.5TFLOPS，但原生CUDA代码往往只能达到5-8%的理论值。

学术猿之吻·2025-05-02 12:38

NVIDIA H100 vs A100：新一代GPU架构性能对比分析

一、核心架构演进对比‌Ampere架构（A100）‌采用台积电7nm工艺，集成540亿晶体管，配备6,912个CUDA核心和432个第三代TensorCore，支持FP16、TF32和INT8精度计算。其显存子系统采用HBM2e技术，80GB版本带宽可达2TB/s，NVLink3.0互联带宽达到600GB/s‌。‌Hopper架构（H100）‌升级至4nm制程工艺，晶体管数量跃升至800亿，CUD

学术猿之吻·2025-05-02 12:37

国产GPU破局之路：摩尔线程与景嘉微的技术路线对比

引言：国产GPU的双轨突围在英伟达占据全球AI芯片市场90%份额的背景下，国产GPU企业正通过差异化技术路线谋求突破。摩尔线程与景嘉微分别代表了全功能通用GPU与垂直领域专用GPU的两大方向。

学术猿之吻·2025-05-02 12:37

‌博士生存指南：如何用3个月从PyTorch进阶CUDA核函数开发？‌

第1个月：理解GPU计算范式，从PyTorch到CUDA的平滑过渡‌‌目标‌：掌握CUDA基础语法，实现首个性能超过PyTorch原生算子的自定义核函

学术猿之吻·2025-05-02 12:07

解决stable-diffusion-webui时的问题：No module ‘xformers‘. Proceeding without it

xformers非强制安装；可优化显存，提高性能和出图速率，对于GPU能力有限的用户很有用；安装过程会调整pytorch版本以适配xformers安装版本。

whistle哨子·2025-05-02 05:20

DeepSeek本地部署及WebUI可视化完全指南

赛博AI Lewis·2025-05-02 03:35

Windows系统下MinerU的CUDA加速配置指南

Windows系统下MinerU的CUDA加速配置指南快速解锁GPU性能，提升文档解析效率1、简介MinerU是一款高效的文档解析工具，支持通过CUDA加速显著提升处理速度。

林语微光·2025-05-02 00:48

Python&aconda系列：（W&L）Conda使用faiss-gpu报错及解决办法、安装numpy的坑、cmd执行Python脚本找不到第三方库、安装tensorflow-gpu时遇到的from

这里写目录标题一.通过AnacondaPrompt搭建faiss-gpu1.7.0和tensorflow-gpu1.13.1的联合环境二.安装tensorflow-gpu时遇到的fromtensorflow.pythonimportpywrap_tensorflow

坦笑&&life·2025-05-01 23:13

AI大模型基础设施：NVIDIA的用于AI大语言模型训练和推理的几款主流显卡

英伟达（NVIDIA）在AI大语言模型（LLM）的训练和推理领域占据主导地位，其GPU因强大的并行计算能力和专为深度学习优化的架构而广受青睐。

InnoLink_1024·2025-05-01 23:39

深度学习框架：PyTorch使用教程！！

PyTorch使用教程2.1入门阶段2.1.1环境安装与配置2.1.2Tensor基础操作2.1.3自动求导（Autograd）2.1.4构建神经网络（nn模块）2.1.5损失函数与优化器2.2进阶阶段2.2.1GPU

JOYCE_Leo16·2025-05-01 15:22

2025云服务器实战手册：从技术架构到商业增长的全链路指南

年云服务器已突破「中心化」架构限制，形成「边缘节点+区域中心+超级云脑」的三级体系：边缘计算：华为云Atlas500实现5ms级实时响应，制造企业质检效率提升40%异构集群：阿里云GN7i实例支持CPU+GPU

国际云·2025-05-01 15:51

云GPU服务器上使用JupyterLab进行深度学习

在云GPU服务器上使用JupyterLab可以为深度学习任务提供便利和灵活性。本文将介绍如何在恒源云的云GPU服务器上配置和使用JupyterLab进行深度学习。

YgjWeb·2025-05-01 11:55

gem5-gpu 安装过程碰到的问题记录关于使用 Ruby + Garnet

要使用gem5-gpu+garnet，您可能需要修改python配置脚本。

事橙1999·2025-05-01 04:08

20_大模型微调和训练之-基于LLamaFactory+LoRA微调LLama3后格式合并

其目的是为了有一个单文件共享的格式，并且易于在不同架构的GPU和CPU上进行推理。但在后续的开发中，遇到了灵活性不足、相容性及难以维护的

吴法刚·2025-04-30 21:56

Python PyTorch库【机器学习框架】全面深入讲解与实践

其核心特性包括：动态计算图（Define-by-Run）GPU加速张量计算自动微分系统丰富的神经网络模块与TensorFlow的静态图相比，PyTorch的动态图机制更符合Python编程习惯，使其在学术研究中迅速流行

老胖闲聊·2025-04-30 21:52

3000多台GPU机器怎么运维

运维3000多台GPU机器是一项复杂且具有挑战性的任务，需要从硬件管理、软件维护、监控与故障处理、安全管理等多个方面进行全面的规划和实施。

会探索的小学生·2025-04-30 18:35

cuda中的虚拟计算能力和真实计算能力

真实计算能力：这是指GPU硬件本身的计算能力，它由两个主要数字构成（例如，7.5），第一个数字代表主版本号，第二个数字代表次版本号。

灰蒙蒙的天上·2025-04-30 17:57

GPU 架构入门笔记

引文位置：https://www.trainy.ai/blog/gpu-utilization-misleading相关概念是通过ChatGPT迅速学习总结而成。

maray·2025-04-30 16:46

【计算机视觉】深度解析MediaPipe：谷歌跨平台多媒体机器学习框架实战指南

.人脸检测2.手势识别3.姿势估计4.物体检测与跟踪实战部署指南环境配置基础环境准备获取源码构建第一个示例（手部追踪）桌面端运行Android端部署自定义计算图开发关键技术深度解析1.高效同步机制2.GPU

白熊188·2025-04-30 15:41

【Rust日报】2021-12-14 Lapce: 用Rust编写的闪电般快速且功能强大的代码编辑器

Lightning-fastandPowerfulCodeEditorwritteninRustLapce完全是用Rust编写的，它的UI使用Druid，它使用Xi编辑器的RopeScience技术进行文本编辑，并使用Wgpu

Rust语言中文社区·2025-04-30 15:10

Windows7+VS2012下64位OpenCV3.0+CUDA7.5的编译和部署

从OpenCV3.0Beta开始，加入了大量的GPU加速计算的功能。6月份OpenCV3.0Gold发布，修复了大量的BUG。

wozhengtao·2025-04-30 14:36

ArrayFire - 通用张量计算库

本文翻译整理自：https://github.com/arrayfire/arrayfire一、关于ArrayFireArrayFire是一个通用张量计算库，能够简化针对CPU、GPU及其他硬件加速设备中并行架构的软件开发流程

编程乐园·2025-04-30 09:07

《从GPT-4到“东数西算”：AI算力的全球格局与技术趋势》

AI算力分配模式对比技术对比GPU集群调度与框架差异：资本主义模式下，私营巨头依赖自研或开源框架优化GPU集群利用率。

嘉图明·2025-04-30 05:09

使用Glide实现毛玻璃的效果

repositories{jcenter()}dependencies{compile'jp.wasabeef:glide-transformations:3.0.1'//IfyouwanttousetheGPUF

zhaoxianwang·2025-04-30 02:47

用Python做有趣的AI项目5：AI 画画机器人（图像风格迁移）

开发环境建议Python3.8+PyTorch（pipinstalltorchtorchvision）PIL（pipinstallpillow）CUDA（可选，但建议有GPU）️项目结构示例bashstyle_transfer

roc-ever·2025-04-30 02:45

Ubuntu深度学习革命：NVIDIA-Docker终极指南与创新实践

一、GPU容器化：开启算力新纪元在斯坦福大学AI实验室，研究员Sarah通过一行Docker命令同时启动20个BERT模型训练任务，每个容器精确分配0.5个GPU核心——这背后正是NVIDIA-Docker

芯作者·2025-04-29 23:49

MATLAB实现神经网络的OCR识别

使用说明：‌运行要求‌：MATLABR2020b或更新版本已安装DeepLearningToolbox推荐使用GPU加速（训练时在代码开头添加gpuDevice(1)）‌代码特点‌：使用MATLAB自带的

potato_potato_123·2025-04-29 20:59

大模型（LLMs）加速篇

算法层面：蒸馏、量化软件层面：计算图优化、模型编译硬件层面：FP8（NVIDIAH系列GPU开始支持FP8，兼有fp16的稳定性和int8的速度）推理加速框架有哪一些？都有什么特点？

AI Echoes·2025-04-29 17:59

C++开发者的逆袭之路：大部份的高薪岗位都在招 CUDA 人才，你还不行动？

想象一下，你手头有个计算任务，普通CPU跑得慢得像乌龟爬，而GPU却能像火箭一样把性能拉满——这就是高性能计算（HPC）的魅力！

讳疾忌医丶·2025-04-29 16:52

【TDA4板端部署】 TIDL 简介

TDA4处理器属于TIJacinto7家族的处理器，基于异构、可扩展的架构开发，此架构包含了TI数字信号处理C7xDSP和C66xDSP、CortexA72、Cortex-R5F、图形处理器GPU等核，

BILLY BILLY·2025-04-29 14:40

企业出海降本：如何将应用从 AWS EC2 快速无缝迁移至DigitalOcean Droplet

然而不论你是做跨境电商，还是短剧出海，或处于最热门的AI赛道，你都需要使用海外的云主机或GPU云服务。海外一线的云服务平台尽管覆盖区域广泛，但是往往费用成本较高。所以降本始终是企业出海关注的重点。

卓普云·2025-04-29 10:10

2024全球GPU算力租赁市场报告：高校科研团队的资源困境与破局

引言：高校科研的算力困局与机遇2024年，全球生成式AI研发进入深水区，千亿参数大模型训练需求激增，而高校科研团队正面临资金短缺、硬件迭代滞后、算力资源分配不均三大核心挑战。与此同时，以MIT、斯坦福为代表的顶尖高校通过技术革新与资源协作探索破局路径，而算力租赁模式凭借灵活性和成本优势，逐渐成为高校科研的新基建。本文将结合行业数据与典型案例，解析高校算力困境的深层逻辑与突围策略。一、困境分析：高校

AladdinEdu·2025-04-29 08:56

GPU 算力：定义、核心优势及多行业应用全景解析

作为现代计算技术的璀璨明珠，GPU算力正从幕后走向台前，以其独特的并行计算优势重塑多个行业的技术架构。

劲速云算力·2025-04-29 08:56

python系列&deep_study系列：Whisper OpenAI开源语音识别模型

未加速和加速后的推理速度测试表，使用GPU为GTX3090（24G）。经过处理的数据

坦笑&&life·2025-04-29 06:19

byxdaz·2025-04-28 22:49

cuDNN 安装、版本查看及指定版本删除操作指南

一、引言cuDNN（CUDADeepNeuralNetworklibrary）是NVIDIA提供的用于深度神经网络的GPU加速库，它能够显著提升深度学习模型在NVIDIAGPU上的训练和推理性能。

九不多·2025-04-28 12:17

云计算市场的重新分类研究

但随着AI大模型的出现，云计算市场可以分为计算云和智算云，智算云主要是AI模型训练、数据处理能力、GPU资源。

AI_CPU_GPU_Cloud·2025-04-28 07:20

Ollama 的安装指南、使用技巧与调优总结

系统要求操作系统：macOS、Linux、Windows（含WSL2）硬件建议：CPU：推荐多核处理器（如Inteli5+/AMDRyzen5+）内存：≥16GB（运行7B模型需8GB+，13B模型需16GB+）GPU

慧一居士·2025-04-28 06:38

5000元组装一台本地运行中、小模型主机，参考配置（运行DeepSeek、Qwen)

参考配置（运行DeepSeek、Qwen)5000元中、小模型主机DeepSeek、Qwen各精度模型推荐启动方式模型名称参数量精度模型大小推荐运行模式DeepSeekR17bQ45GBLMStudio纯GPU14bQ49GBLMStudio

AI帮小忙·2025-04-28 05:28

关于开源大模型（如 LLaMA、InternLM、Baichuan、DeepSeek、Qwen 等）二次开发或训练经验的关键点和概述

部署这些模型常需GPU支持，隐私保护是重要考量，尤其在团队项目中。工具如Transformers、LMDeploy和LoRA常用于优化性能和效率。不同模型有各自特点，经验

weixin_40941102·2025-04-27 21:11

DPIN在AI+DePIN孟买峰会阐述全球GPU生态系统的战略愿景

本次活动汇集了DPIN、QPIN、社区成员和Web3行业资深顾问，深入探讨DPIN构建全球领先的去中心化GPU算力网络的战略，该网络由AI与去中心化基础设施网络（DePIN）的强大协同驱动。

Web3 Channel·2025-04-27 13:50

PyTorch与CUDA的关系

的版本1.1查看PyTorch版本1.2查看torchvision版本二、如何确认PyTorch和torchvision是否支持CUDA加速2.1检查PyTorch是否支持CUDA2.2查看当前可用的GPU

飞雪白鹿€·2025-04-27 10:30

基于 RK3588 + 双天线差分 GNSS + RTK 的自主可控技术平台

内置Mali-G610GPU（兼容OpenGLES3.2/Vulkan1.2）与6TOPSNPU（支持INT8/FP16混合运算），可实时处理复杂算法与多传感器数据融合。‌应用场景

电鱼智能·2025-04-27 05:56

基于 EFISH-SBC-RK3588 的无人机通信云端数据处理模块方案‌

硬件架构设计‌‌核心计算单元（EFISH-SBC-RK3588）‌‌异构计算能力‌：搭载8核ARM架构（4×[email protected]+4×[email protected]），集成6TOPSNPU与Mali-G610GPU