cuda(GPU 第38页

一文走进GpuGeek | 如何快速使用实例？

使用流程注册登录进入GpuGeek.com平台注册页面使用手机号注册数据上传平台提供网盘存储，在【网盘存储】页面，可以看到存储的使用量、费用及文件。选择网盘后，点击上传，上传本地文件至网盘。

·2025-02-12 22:38

用Llama Factory单机多卡微调Qwen2.5时报torch.OutOfMemoryError: CUDA out of memory的解决办法

接着上一篇博客：在Ubuntu上用LlamaFactory命令行微调Qwen2.5的简单过程_llamafactory微调qwen2.5-CSDN博客如果需要微调比较大的模型，例如Qwen2.5-32B，那么在两个3090上可能不够用，这里我用A6000×4的服务器。但如果仿照上篇博客，直接运行：llamafactory-clitrainexamples/train_qlora/qwen_lora

蛐蛐蛐·2025-02-12 22:27

CUDA与CUDPP源码解析及实战应用

本文还有配套的精品资源，点击获取简介：CUDA是NVIDIA推出的并行计算平台，CUDPP是一个提供GPU优化算法的开源库。

昊叔Crescdim·2025-02-12 19:06

嵌入式AI革命：DeepSeek开源如何终结GPU霸权，开启单片机智能新时代？

2025年，全球AI领域最震撼的突破并非来自算力堆叠的超级模型，而是中国团队DeepSeek通过开源策略，推动大模型向微型化、低功耗场景的跨越。相对于当人们还在讨论千亿参数模型的训练成本被压缩到600万美金而言，被称作“核弹级别”的操作，是DeepSeek的完全开源。一个更具颠覆性的命题浮出水面：能否将DeepSeek这样的先进AI模型移植到单片机（MCU）上，让手表、传感器甚至灯泡都具备真正的智

老六哥_AI助理指南·2025-02-12 16:09

【ai】李沐动手深度学学v2 环境安装：anaconda3、pycharm、d2

cuda-toolkitcuda_12.5.0_windows_network.exe官方课程网站第二版资源下载release版本pycharm版本李沐【动手学深度学习v2PyTorch版】课程笔记CUDA

等风来不如迎风去·2025-02-12 15:05

Deep Seek大模型部署到本地详细教程

以下是将DeepSeek大模型部署到本地开发环境的详细教程，分为多个步骤，包含技术细节和注意事项：步骤1：环境准备硬件要求GPU：推荐NVIDIAGPU（至少16GB显存，如RTX3090/4090或A100

Katie。·2025-02-12 11:40

（python）如何看自己安装的包的版本

findstr"numpyscipytensorflowkeras"输出numpy1.13.1scipy0.19.1tensorflow-cpu2.4.0tensorflow-estimator2.4.0tensorflow-gpu2.4.0

9677·2025-02-12 10:04

llama-cpp-python CUDA error问题

安装完cuBLAS(CUDA)版本的llama-cpp-pythonCMAKE_ARGS="-DLLAMA_CUBLAS=on"pipinstallllama-cpp-python跑模型，指定n_gpu_layers

0语1言·2025-02-12 09:31

【‌Unity】Unity中物体的static属性作用

因此，Unity可以提前计算并缓存这些物体的光照和遮挡信息，从而减少在运行时对GPU的调用次数，提高游戏运行的流畅度‌。光照贴图优化‌：对于标

_Keep up·2025-02-12 07:42

Pointnet++改进即插即用系列：全网首发ACConv2d|即插即用，提升特征提取模块性能

目录1.理论介绍2.修改步骤2.1步骤一2.2步骤二2.3步骤三1.理论介绍由于在给定的应用环境中设计合适的卷积神经网络(CNN)架构通常需要大量的人工工作或大量的GPU时间，研究社区正在

AICurator·2025-02-12 06:36

模型轻量化

影响神经网络推理速度主要有4个因素：FLOPs、MAC、计算并行度、硬件平台架构与特性（算力、GPU内存带宽）模型压缩工业界主流的模型压缩方法有：知识蒸馏（KnowledgeDistillation，KD

莱茶荼菜·2025-02-11 22:10

DARTS算法笔记（论文+代码）

DARTS通过两次近似，将问题简单化，以减少GPU计算天数，局部最优近似全局最优，有限差分近似求梯度。摘要：在CIFAR-10、ImageNet、PennTreebank和

朴公英不会飞·2025-02-11 19:42

【DeepSeek】DeepSeek R1 本地部署（Ollama+Docker+OpenWebUI）

说明为什么使用本方案部署环境与资源本地部署需要用户自建硬件（如GPU集群）和配置环境，适合对数据隐私要求较高或离线处理场景；线上API则由服务商托管，用户通过网络调用，无需自行投资硬件资源。

neter.asia·2025-02-11 19:42

云上部署文生图大模型Stable Diffusion 3

请跟随本文，在百度智能云GPU服务器上部署StableDiffusion3。准备工作环境信息本文以百度智能云GP

·2025-02-11 16:26

报错：检测不到cuda解决方案

H_Shelly·2025-02-11 15:49

CUDA检测失败的解决方案

CUDA检测失败的解决方案在使用Python进行CUDA编程时，有时候会遇到"CUDAdetectionfailed"的错误信息。这个错误通常表示CUDA驱动程序无法正确地检测到CUDA设备。

HackDashX·2025-02-11 15:49

Win11电脑显存大小查看教程：两种方法轻松掌握

Win11电脑显存大小查看教程：两种方法轻松掌握显存作为图形处理单元（GPU）的重要组成部分，对于图形渲染、游戏性能以及专业图形应用等方面都有着至关重要的影响。

mmoo_python·2025-02-11 13:05

唤醒 AI 算力，专有云 ABC Stack 面向企业级智算平台的 GPU 提效实践

从「建好」到「用好」，企业级智算平台借助专有云ABCStack的GPU提效服务，应对大模型业务挑战，唤醒AI算力，加速AI原生业务的落地。

·2025-02-11 12:16

0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS

大模型推理引擎的基本工作模式可以概括为，接收包括输入prompt和采样参数的并发请求，分词并且组装成batch输入给引擎，调度GPU执行前向推理，处理计算结果并转为词元返回给用户。

·2025-02-11 11:44

NVIDIA-docker Cheatsheet

TensorFlowDockerrequirementsInstallDockeronyourlocalhostmachine.ForGPUsupportonLinux,installnvidia-docker.Note

weixin_30758821·2025-02-11 11:22

windows server独立部署Qwen2.5-vl-7B

服务器配置信息CPU：64GGPU：48G（RTX4090）一、使用conda下载模型Qwen2.5-VL-7B-Instructconda下载condacreate--nameqwenpython=3.11condaactivateqwen

hello_world_Q·2025-02-11 10:38

Transformer 的辉煌与大模型方向确立，点燃AGI之火把

技术壁垒：模型，技术，开源CUDA壁垒：PTX编程更加底层，大量中国硬件公司，可以适配Transformer架构的奠基2017年，Vaswani等人发表了开创性论文《AttentionisAllY

dingcb168·2025-02-11 07:47

Vulkan：Vulkan性能优化与调试技巧_2024-07-20_16-35-28.Tex

Vulkan：Vulkan性能优化与调试技巧Vulkan基础概述Vulkan渲染管线简介Vulkan是一种低开销、跨平台的图形和计算API，它为开发者提供了直接访问GPU的能力，从而实现高性能的图形渲染和计算任务

chenjj4003·2025-02-11 02:36

【ubuntu24.04】GTX4700 配置安装cuda

筛选显卡驱动显卡驱动NVIDIA-Linux-x86_64-550.135.run而后重启：最新的是12.6用于ubuntu24.04，但是我的4700的显卡驱动要求12.4cuda

等风来不如迎风去·2025-02-11 01:58

AI 场景下，函数计算 GPU 实例模型存储最佳实践

为了帮助开发者高效地在函数计算上部署AI推理应用，并快速解决不同场景下的模型存储选型问题，本文将对函数计算的GPU模型存储的优缺点及适用场景进行对比分析，以期为您的模型存储决策提供帮助。

·2025-02-10 23:53

看懂 DeepSeek 模型参数与运行需求

在运行配置方面，最低只需4GB显存的GPU、4核CPU以及8GB内存，普通的个人电脑便能轻松驾驭。

现时云·2025-02-10 22:08

“轻松上手！5分钟学会用京东云打造你自己的专属DeepSeek”

\#从第⼀步骤到第四步骤是完成DeepSeek本地部署和使⽤,可以满⾜中⼩企业环境的稳定使⽤,第五步骤为基于AnythingLLM和本地数据进⾏训练(基于本地数据搭建本地知识库):⼀：京东云GPU云主机环境准备

·2025-02-10 18:11

DeepSpeed 在三台T4卡上部署deepseek-r1:32b

推理部署的重点是利用多台机器和多块GPU来加速模型的推理过程。1.环境准备首先，确保每台机器上都安装了正确的依赖项。

MonkeyKing.sun·2025-02-10 14:33

硅基流动与华为云联合推出基于昇腾云的DeepSeek R1&；V3推理服务

该服务具备以下特点：得益于自研推理加速引擎加持，硅基流动和华为云昇腾云服务支持部署的DeepSeek模型可获得持平全球高端GPU部署模型的效果。

光锥智能·2025-02-10 12:14

【深度学习】无Linux管理员权限，照样可以安装CUDA

以下演示内容使用CUDA版本为CUDA11.71、官网官网：CUDA官网下载地址这里会列出所有的CUDA版本，选择需要的版本即可。

土豆炒马铃薯。·2025-02-10 05:40

解决Pytorch的cuDNN error: CUDNN_STATUS_NOT_INITIALIZED

目录1.问题报错2.可能原因2.1GPU内存不足2.2缓存问题2.3CUDA和Pytorch版本不兼容2.4CUDA和cuDNN版本不兼容3.验证CUDA是否可用4.参考1.问题报错在使用GPU加速模型训练的过程中经常会遇到这样的错误

Jurio.21·2025-02-10 00:31

CUDA环境配置

本文介绍Ubuntu14.04下CUDA环境的安装过程标签高性能计算（HPC）并行化加速学习CUDA最好的去处还是NVIDIA官网，上面许多文档写的都相当不错，比如CUDA编程指南、如何使用cuRand

波小澜·2025-02-10 00:29

【PyTorch 】【CUDA】深入了解 PyTorch 中的 CUDA 和 cuDNN 版本及 GPU 信息

目录引言一、环境准备1.1重要的环境依赖1.2安装CUDA和cuDNN1.3示例安装步骤1.4PyTorch、CUDA和cuDNN版本兼容性表二、检查CUDA和cuDNN版本三、检查GPU可用性四、测试

丶2136·2025-02-10 00:27

CUDA 学习笔记之程序栈

runtimeapi使用cudart动态库，以cuda为前缀。而driverapi使用cuda动态库，在使用前要包含相应的库文件，以c

cs199503·2025-02-09 19:26

【Windows/C++/yolo开发部署03】将实例分割模型ONNX导出为 TensorRT 引擎：完整记录

两种方式】+【支持linux和windows】资源-CSDN文库目录写在前面环境准备1.使用trtexec将ONNX模型转换为TensorRT引擎2.验证TensorRT引擎2.1TensorRT版本2.2GPU

认识祂·2025-02-09 13:42

[linux thermal] cpufreq_power2state()函数学习

前言在thermal管理中，IPA策略将会为各个actors（cpubigcore、littlecore、GPU等）分配预算功率，以达到“控制温度的同时尽量保证性能”的目的。那么该功率是如何起作用的？

折木H.O.·2025-02-09 08:05

【CUDA】 GPU与CPU体系结构对比

1.GPU与CPU运算性能对比在面对并行任务处理时,CPU与GPU的体系结构在设计理念上有着根本的区别。

WHAT816·2025-02-09 05:16

AI硬件加速：CPU vs GPU性能对比

AI硬件加速：CPUvsGPU性能对比关键词：人工智能、硬件加速、CPU、GPU、性能对比、硬件架构、并行计算、优化策略、项目实战摘要：本文将深入探讨AI硬件加速领域中的两个核心组件：CPU和GPU，通过性能对比分析

AI天才研究院·2025-02-09 05:06

详解GPU、CPU差异

简介：CPU和GPU之所以大不相同，是由于其设计目标的不同，它们分别针对了两种不同的应用场景。CPU需要很强的通用性来处理各种不同的数据类型，同时又要逻辑判断又会引入大量的分支跳转和中断的处理。

玩转测试开发·2025-02-09 04:35

ext的cuda

EXT做为与用户交互的前端，其功能可以概括为：生成用户界面，与用户实现交互，并与程序（PHP,.NET等）后台通信来完成与用户的交互。生成用户界面:EXT被广泛接受认可的原因之一便是他拥有良好的用户外观。一个系统中最主要的功能便是实现CRUD（新增，读取，更新，删除），同时还有查询。为了将这些功能集中在一起，特意封装了一个EXT的CRUD面板，将这些常用的功能封装成一个类，以便创建易用性良好的界面

rdman84·2025-02-09 02:22

RuntimeError: FlashAttention only supports Ampere GPUs or newer.

报错：RuntimeError:FlashAttentiononlysupportsAmpereGPUsornewer.报错原因分析：GPU机器配置低，不支持特斯拉-V100；是否有解决方案,是；方案1

福将～白鹿·2025-02-08 22:27

View的渲染机制

答案就是cpu(「这里为了方便，把cpu、gpu、sf等统一称为cpu」)，这些数据由cpu提供，cpu经过各种运算，将数据写入一块内存中，这块内存叫做「帧缓冲」，我们可以将帧缓冲理解为一

Forget_Sky·2025-02-08 20:09

小米AI大模型：万卡集群背后的雄心与布局

近日，关于小米搭建GPU万卡集群，大力投资AI大模型的新闻引发广泛关注，这标志着小米在AI赛道上迈出了关键一步。

·2025-02-08 19:32

GROMACS-2023.2 安装（GPU加速）

预装：1，cmake3.25.2安装，路径加入到bashrc2，gcc版本9.3，路径加入到bashrc3，fftw版本3.3.104，Openmpi4.1.1路径加入到bashrc5，cuda12.1

咸鱼啦啦·2025-02-08 18:56

Chrome中的GPU加速合成

原文链接：https://www.chromium.org/developers/design-documents/gpu-accelerated-compositing-in-chrome简介：为什么要进行硬件合成

~怎么回事啊~·2025-02-08 10:58

Ubuntu20.04+GeForce RTX 2080 SUPER+cuda11.1+cudnn8.0.4+openCV4.4.0环境搭建

链接在此：Ubuntu20.04+GeForceRTX2080SUPER+cuda11.1+cudnn8.0.4+openCV4.4.0环境搭建出现的问题1：ubuntu20.04安装libpng12-

pkuyjxu·2025-02-08 08:06

第19章《VTK并行渲染》

VTK提供了一些工具和方法来利用多核处理器、分布式计算环境以及GPU加速来进行并行渲染。1.并行渲染的目标加速数据处理：通过将计算任务分配给多个处理器或计算节点，减少数据处理时间。

《雨声》·2025-02-08 07:32

FFmpeg使用GPU编解码，及在C++代码中实现FFmpeg使用GPU编解码

一.使用GPU进行编解码的常见方法FFmpeg是一个强大的多媒体处理工具，支持使用GPU进行编解码以加速视频处理。

沐风_ZTL·2025-02-08 05:47

运用Faster RCNN、YOLO经典目标检测算法对滑坡图像进行检测

本次实验采用的操作系统为Ubuntu16.04平台，编程环境基于Python，GPU为NVIDIAGeForce740m，在基于深度学习框架CAFFE下进行实验。实验输出结果

AngeliaZ·2025-02-08 04:10

vLLM显存优化

在使用vLLM框架进行大模型推理时，为了最大程度地减少GPU显存的占用，可以从以下几个方面调整参数和配置：1.调整max_batch_size参数max_batch_size：这是批处理的最大大小。

xnuscd·2025-02-08 04:07

推荐频道

cuda(GPU