cuda(GPU 第19页

20_大模型微调和训练之-基于LLamaFactory+LoRA微调LLama3后格式合并

其目的是为了有一个单文件共享的格式，并且易于在不同架构的GPU和CPU上进行推理。但在后续的开发中，遇到了灵活性不足、相容性及难以维护的

吴法刚·2025-04-30 21:56

Python PyTorch库【机器学习框架】全面深入讲解与实践

其核心特性包括：动态计算图（Define-by-Run）GPU加速张量计算自动微分系统丰富的神经网络模块与TensorFlow的静态图相比，PyTorch的动态图机制更符合Python编程习惯，使其在学术研究中迅速流行

老胖闲聊·2025-04-30 21:52

3000多台GPU机器怎么运维

运维3000多台GPU机器是一项复杂且具有挑战性的任务，需要从硬件管理、软件维护、监控与故障处理、安全管理等多个方面进行全面的规划和实施。

会探索的小学生·2025-04-30 18:35

cuda中的虚拟计算能力和真实计算能力

真实计算能力：这是指GPU硬件本身的计算能力，它由两个主要数字构成（例如，7.5），第一个数字代表主版本号，第二个数字代表次版本号。

灰蒙蒙的天上·2025-04-30 17:57

GPU 架构入门笔记

引文位置：https://www.trainy.ai/blog/gpu-utilization-misleading相关概念是通过ChatGPT迅速学习总结而成。

maray·2025-04-30 16:46

【计算机视觉】深度解析MediaPipe：谷歌跨平台多媒体机器学习框架实战指南

.人脸检测2.手势识别3.姿势估计4.物体检测与跟踪实战部署指南环境配置基础环境准备获取源码构建第一个示例（手部追踪）桌面端运行Android端部署自定义计算图开发关键技术深度解析1.高效同步机制2.GPU

白熊188·2025-04-30 15:41

【Rust日报】2021-12-14 Lapce: 用Rust编写的闪电般快速且功能强大的代码编辑器

Lightning-fastandPowerfulCodeEditorwritteninRustLapce完全是用Rust编写的，它的UI使用Druid，它使用Xi编辑器的RopeScience技术进行文本编辑，并使用Wgpu

Rust语言中文社区·2025-04-30 15:10

Windows7+VS2012下64位OpenCV3.0+CUDA7.5的编译和部署

从OpenCV3.0Beta开始，加入了大量的GPU加速计算的功能。6月份OpenCV3.0Gold发布，修复了大量的BUG。

wozhengtao·2025-04-30 14:36

ArrayFire - 通用张量计算库

本文翻译整理自：https://github.com/arrayfire/arrayfire一、关于ArrayFireArrayFire是一个通用张量计算库，能够简化针对CPU、GPU及其他硬件加速设备中并行架构的软件开发流程

编程乐园·2025-04-30 09:07

【AI学习】读《对话丨地平线创始人余凯：战略的本质是不赌》的一些想法

我觉得ARM最大的遗憾是，它只限于芯片架构层面，没有控制到基础软件，今天吃得最香的英伟达，同时控制了芯片跟操作系统CUDA。我觉得我们的兴趣是做ARM加安卓，未来SoC我们都不想做”。想起当

bylander·2025-04-30 09:35

《从GPT-4到“东数西算”：AI算力的全球格局与技术趋势》

AI算力分配模式对比技术对比GPU集群调度与框架差异：资本主义模式下，私营巨头依赖自研或开源框架优化GPU集群利用率。

嘉图明·2025-04-30 05:09

操作指南：vLLM 部署开源大语言模型（LLM）

vLLM部署开源大模型的详细步骤及优化策略：一、环境准备与安装安装vLLM基础安装：通过pip直接安装，支持CUDA12.1及更高版本：pipinstallvllm或从源码安装最新功能：gitclonehttps

jane_xing·2025-04-30 03:23

使用Glide实现毛玻璃的效果

repositories{jcenter()}dependencies{compile'jp.wasabeef:glide-transformations:3.0.1'//IfyouwanttousetheGPUF

zhaoxianwang·2025-04-30 02:47

用Python做有趣的AI项目5：AI 画画机器人（图像风格迁移）

开发环境建议Python3.8+PyTorch（pipinstalltorchtorchvision）PIL（pipinstallpillow）CUDA（可选，但建议有GPU）️项目结构示例bashstyle_transfer

roc-ever·2025-04-30 02:45

Ubuntu深度学习革命：NVIDIA-Docker终极指南与创新实践

一、GPU容器化：开启算力新纪元在斯坦福大学AI实验室，研究员Sarah通过一行Docker命令同时启动20个BERT模型训练任务，每个容器精确分配0.5个GPU核心——这背后正是NVIDIA-Docker

芯作者·2025-04-29 23:49

MATLAB实现神经网络的OCR识别

使用说明：‌运行要求‌：MATLABR2020b或更新版本已安装DeepLearningToolbox推荐使用GPU加速（训练时在代码开头添加gpuDevice(1)）‌代码特点‌：使用MATLAB自带的

potato_potato_123·2025-04-29 20:59

Swin-Transformer-Object-Detection训练自己的数据

、windows环境配置1.1准备环境（1）创建python=3.8的虚拟环境condacreate--namelane_segpython=3.8condaactivatelane_seg（2）安装cuda

永进，·2025-04-29 17:11

大模型（LLMs）加速篇

算法层面：蒸馏、量化软件层面：计算图优化、模型编译硬件层面：FP8（NVIDIAH系列GPU开始支持FP8，兼有fp16的稳定性和int8的速度）推理加速框架有哪一些？都有什么特点？

AI Echoes·2025-04-29 17:59

C++开发者的逆袭之路：大部份的高薪岗位都在招 CUDA 人才，你还不行动？

为什么你必须学会CUDA编程？想象一下，你手头有个计算任务，普通CPU跑得慢得像乌龟爬，而GPU却能像火箭一样把性能拉满——这就是高性能计算（HPC）的魅力！

讳疾忌医丶·2025-04-29 16:52

【TDA4板端部署】 TIDL 简介

TDA4处理器属于TIJacinto7家族的处理器，基于异构、可扩展的架构开发，此架构包含了TI数字信号处理C7xDSP和C66xDSP、CortexA72、Cortex-R5F、图形处理器GPU等核，

BILLY BILLY·2025-04-29 14:40

企业出海降本：如何将应用从 AWS EC2 快速无缝迁移至DigitalOcean Droplet

然而不论你是做跨境电商，还是短剧出海，或处于最热门的AI赛道，你都需要使用海外的云主机或GPU云服务。海外一线的云服务平台尽管覆盖区域广泛，但是往往费用成本较高。所以降本始终是企业出海关注的重点。

卓普云·2025-04-29 10:10

2024全球GPU算力租赁市场报告：高校科研团队的资源困境与破局

引言：高校科研的算力困局与机遇2024年，全球生成式AI研发进入深水区，千亿参数大模型训练需求激增，而高校科研团队正面临资金短缺、硬件迭代滞后、算力资源分配不均三大核心挑战。与此同时，以MIT、斯坦福为代表的顶尖高校通过技术革新与资源协作探索破局路径，而算力租赁模式凭借灵活性和成本优势，逐渐成为高校科研的新基建。本文将结合行业数据与典型案例，解析高校算力困境的深层逻辑与突围策略。一、困境分析：高校

AladdinEdu·2025-04-29 08:56

GPU 算力：定义、核心优势及多行业应用全景解析

作为现代计算技术的璀璨明珠，GPU算力正从幕后走向台前，以其独特的并行计算优势重塑多个行业的技术架构。

劲速云算力·2025-04-29 08:56

python系列&deep_study系列：Whisper OpenAI开源语音识别模型

未加速和加速后的推理速度测试表，使用GPU为GTX3090（24G）。经过处理的数据

坦笑&&life·2025-04-29 06:19

byxdaz·2025-04-28 22:49

cuDNN 安装、版本查看及指定版本删除操作指南

一、引言cuDNN（CUDADeepNeuralNetworklibrary）是NVIDIA提供的用于深度神经网络的GPU加速库，它能够显著提升深度学习模型在NVIDIAGPU上的训练和推理性能。

九不多·2025-04-28 12:17

【大模型】图像生成 - Stable Diffusion 深度解析：原理、应用与实战指南

扩散模型与潜在空间扩散模型（DiffusionModel）潜在扩散（LatentDiffusion）条件控制3.应用场景4.实战指南：本地部署与运行环境配置基础生成代码参数调优5.常见问题与解决方案问题1：显存不足（CUDAOutofMemory

白熊188·2025-04-28 11:43

云计算市场的重新分类研究

但随着AI大模型的出现，云计算市场可以分为计算云和智算云，智算云主要是AI模型训练、数据处理能力、GPU资源。

AI_CPU_GPU_Cloud·2025-04-28 07:20

Ollama 的安装指南、使用技巧与调优总结

系统要求操作系统：macOS、Linux、Windows（含WSL2）硬件建议：CPU：推荐多核处理器（如Inteli5+/AMDRyzen5+）内存：≥16GB（运行7B模型需8GB+，13B模型需16GB+）GPU

慧一居士·2025-04-28 06:38

5000元组装一台本地运行中、小模型主机，参考配置（运行DeepSeek、Qwen)

参考配置（运行DeepSeek、Qwen)5000元中、小模型主机DeepSeek、Qwen各精度模型推荐启动方式模型名称参数量精度模型大小推荐运行模式DeepSeekR17bQ45GBLMStudio纯GPU14bQ49GBLMStudio

AI帮小忙·2025-04-28 05:28

跑大模型高性能显卡参数对比，成熟商用方案整机推荐配置

RTX4080、RTX3090、A800、L40、L20、A40、A30、A10、V100S、T4、RTXA6000、RTXA5000、RTXA4000、RTXA6000Ada、RTXA5000AdaCUDA

AI帮小忙·2025-04-28 05:58

【基于opencv-cuda的常见图像预处理】

文章目录1.常见图像预处理实现2.opencv-cuda加速图像预处理参考链接1.常见图像预处理实现与网络训练过程中包含各种数据增强方法不同，在网络的推理阶段常见的图像预处理如下所示：fromPILimportImagefromtorchvisionimporttransformsasT

hello_dear_you·2025-04-28 02:15

关于开源大模型（如 LLaMA、InternLM、Baichuan、DeepSeek、Qwen 等）二次开发或训练经验的关键点和概述

部署这些模型常需GPU支持，隐私保护是重要考量，尤其在团队项目中。工具如Transformers、LMDeploy和LoRA常用于优化性能和效率。不同模型有各自特点，经验

weixin_40941102·2025-04-27 21:11

DPIN在AI+DePIN孟买峰会阐述全球GPU生态系统的战略愿景

本次活动汇集了DPIN、QPIN、社区成员和Web3行业资深顾问，深入探讨DPIN构建全球领先的去中心化GPU算力网络的战略，该网络由AI与去中心化基础设施网络（DePIN）的强大协同驱动。

Web3 Channel·2025-04-27 13:50

pytorch与cuda对应关系

cuda版本可用pytorch版本7.50.4.1，0.3.0，0.2.0，0.1.12-0.1.68.01.0.0，0.4.19.01.1.0，1.0.1,1.0.0，0.4.19.21.4.0，1.2.0

GF小甘·2025-04-27 11:36

PyTorch与CUDA的关系

文章目录前言一、如何查看PyTorch和torchvision的版本1.1查看PyTorch版本1.2查看torchvision版本二、如何确认PyTorch和torchvision是否支持CUDA加速

飞雪白鹿€·2025-04-27 10:30

基于 RK3588 + 双天线差分 GNSS + RTK 的自主可控技术平台

内置Mali-G610GPU（兼容OpenGLES3.2/Vulkan1.2）与6TOPSNPU（支持INT8/FP16混合运算），可实时处理复杂算法与多传感器数据融合。‌应用场景

电鱼智能·2025-04-27 05:56

基于 EFISH-SBC-RK3588 的无人机通信云端数据处理模块方案‌

硬件架构设计‌‌核心计算单元（EFISH-SBC-RK3588）‌‌异构计算能力‌：搭载8核ARM架构（4×[email protected]+4×[email protected]），集成6TOPSNPU与Mali-G610GPU

电鱼智能·2025-04-27 05:56

一个安装pytorch3d绝对不会出错的方法｜超简单！！

pytorch3d的本地安装，可以任意选择需要的版本tar.bz2文件下载网址如下：anaconda_pytorch3d比如我的环境是linux，python版本3.8，pytorch版本2.0.0，cuda

walterkd·2025-04-27 04:22

【全网最简单】5分钟 Win10安装部署pytorch GPU加速(附gpu测试代码）--------- 不需要安装CUDA，CUDNN ！！！

---------第一点，不需要安装CUDA，CUDNN！！！

欣华数码·2025-04-27 04:21

DeepSeek开源周发布MOE架构千亿级模型部署秘籍

DeepSeek开源周发布MOE架构千亿级模型部署秘籍原创NLP轻松谈NLP轻松谈2025年03月03日10:02北京第一天（2月24日）：FlashMLAFlashMLA是一个针对英伟达HopperGPU

强化学习曾小健·2025-04-27 02:07

小车AI视觉识别--4.物体识别

这种灵活的架构允许您将计算部署到桌面，服务器或移动设备中的一个或多个CPU或GPU，而无需重写代码。

xm一点不soso·2025-04-26 22:18

（5）cuda中的grid、block

文章目录概要整体架构流程打印grid和block的维度计算每个线程在block中的索引计算每个线程在grid中的索引完整代码与输出输出gpu信息概要在CUDA中，host和device是两个重要的概念，

狼刀流·2025-04-26 22:17

在UBUNTU内使用DOCKER配置PYTHON项目环境

requirements.txttorch>=1.4.0torchvision>=0.5.0dominate>=2.4.0visdom>=0.1.8.8wandb二、创建DockerfileFROMnvidia/cuda

2301_79655576·2025-04-26 22:46

深入解析操作系统进程优先级：从原理到实战调优

引言想象这样一个场景：你的游戏本正同时运行《赛博朋克2077》（CPU/GPU密集型）后台挂着Steam下载更新包（磁盘I/O密集型）突然需要视频会议软件紧急接入工作电话（实时性要求高）操作系统如何在这三个需求中智能分配资源

Run1.·2025-04-26 22:45

从零到前沿：2025年人工智能系统性学习路径与最新技术融合指南

蒙特卡洛方法在强化学习的采样策略优化理论：2025年主流的元学习（Meta-Learning）框架中的二阶优化算法发展计算机科学基础数据结构：图神经网络（GNN）中的邻接矩阵存储优化操作系统：分布式训练中的GPU

小李独爱秋·2025-04-26 18:49

看看KIMI怎么说-沐曦C500计算卡是什么样的水平？

沐曦C500计算卡是沐曦公司推出的一款高性能国产GPU，具有较高的性能和诸多优势，以下是其具体介绍：性能参数算力：PCIe版本FP32矢量算力15TFLOPS、矩阵算力30TFLOPS，TF32算力120TFLOPS

释迦呼呼·2025-04-26 18:48

HPC与AI工作负载的GPU利用率对比诊断（使用Nsight Compute进行指令级性能剖析）

引言：计算范式的性能迷雾在瑞士国家超算中心（CSCS）的PizDaint系统上，气象模拟程序COSMO与Transformer-XL训练任务共享A100GPU节点时，出现了令人困惑的现象：前者的理论计算强度

AladdinEdu·2025-04-26 18:17

基于Vulkan Specialization Constants的材质变体系统

材质变体所谓材质变体，指的是一份材质代码文件，最终对应的是多份运行时gpu程序。比如，shader代码里面有开关或者选项，不同的组合对应不同的最终gpuprogram。

肖远行·2025-04-26 15:59

YOLOv8改进有效系列目录包含卷积、主干、检测头、注意力机制、Neck上百种创新机制_如何在网络结构中添加注意力机制、c2f

基础篇(一)：详解YOLOv8网络结构/环境搭建/数据集获取/训练/推理/验证/导出/部署：详解YOLOv8网络结构/环境搭建/数据集获取/训练/推理/验证/导出/部署")(二):利用恒源云在云端租用GPU

2401_85123508·2025-04-26 14:53

推荐频道

cuda(GPU