gpu 第18页

OBS 中不同编码器的预设作用与设置方法详解

更快的预设（如ultrafast）：占用更少CPU/GPU，速度更快，但压缩率较低、画质较差。更慢的

吃面不喝汤66·2025-04-17 05:33

PyTorch的benchmark模块

•Timer类：精确测量代码运行时间，支持CPU/GPU时间统计，并自动处理CUDA异步执行的同步问题。fromtorch.u

小小毛桃·2025-04-17 01:40

GpuGeek：重构AI算力基础设施，赋能产业智能升级

GpuGeek凭借创新的技术架构和运营模式，重新定义了AI算力服务的价值边界，为算法工程师和企业用户构建了集弹性算力、开发工具和模型生态于一体的新一代AI基础设施平台。

Newfocus！·2025-04-17 01:10

云原生周刊：K8s 中的 GPU 共享

KubeSphere 云原生·2025-04-16 21:40

在ARM架构Mac上部署Python 3.12与Conda环境的全链路指南！！！

环境的全链路指南（M1/M2芯片实测｜含性能调优+避坑手册）核心价值点•原生ARM支持：突破Rosetta转译的性能损耗•环境隔离：Conda虚拟环境管理+多版本Python共存方案•工业级优化：MetalGPU

小丁学Java·2025-04-16 20:36

大模型训练显存压缩实战：ZeRO-3 vs 梯度累积 vs 量化混合策略

一、显存瓶颈的本质与挑战大模型训练面临的核心矛盾是模型参数量指数级增长与GPU显存容量线性提升之间的鸿沟。

学术猿之吻·2025-04-16 10:02

【收藏】KVM GPU虚拟化技术

一、基础概念与实现方式GPU虚拟化是指将物理GPU资源分配给虚拟机，以提高图形处理性能和计算能力。KVM支持多种GPU虚拟化方式，包括直通模式、SR-IOV和半虚拟化。

玄学魔术师·2025-04-16 09:27

DeepSeek-R1 私有化部署 ubuntu22.04 3060显卡

减少GPU依赖：DeepSeek有效降低了大规模训练对GPU资源的依赖，推动了AI产业链的重塑。国际

第十人i·2025-04-16 09:26

利用多GPU计算探索量子无序及AI拓展

量子无序系统的领域是凝聚态物理学中一个引人入胜的前沿。与它们完全有序的对应物不同，这些材料表现出量子力学和内在随机性的复杂相互作用，导致了许多令人着迷且常常难以理解的行为。量子自旋玻璃就是一个典型的例子，在这种系统中，磁矩（自旋）随机耦合，导致了一个“受挫”的能量landscape和许多竞争的基态。理解这些系统的临界性质不仅具有基础科学意义上的重要性，而且对于新兴的量子计算领域，特别是在量子退火解

亚图跨际·2025-04-16 06:35

性能优化实践

而现代API（如WebGPU）通过更底层的硬件控制和并行计算能力显著提升了性能与稳定性。以下从技术对比、优化策略和案例分析三个方面展开。技术对比：We

Eqwaak00·2025-04-16 06:33

GPU服务器声音很响可以怎么处理

当GPU服务器运行时噪音过大，通常是由于高负载下散热风扇高速运转所致。

会飞的土拨鼠呀·2025-04-15 22:11

cv::cuda::GpuMat 中的 flags、data、refcount、datastart、dataend 和 allocator 含义

在OpenCV的cv::cuda::GpuMat类中，成员变量flags、data、refcount、datastart、dataend和allocator分别承担不同的角色，以下是对它们的详细解析：1

Ring__Rain·2025-04-15 21:36

【架构解析】深入浅析DeepSeek-V3的技术架构_deepseek 参数

运行这个DeepSeek-V3需要的显存资源，我先去找更大的GPUVM去了…一、DeepSeek-V3的架构详解1.模型总体概述DeepSeek-V3是一款采用Mixture-of-Experts（MoE

程序员一粟·2025-04-15 21:06

云原生周刊：K8s 中的 GPU 共享

·2025-04-15 17:14

云算力：重塑各行业数字化转型的核心引擎（上篇）

当摩尔定律逼近物理极限，GPU并行计算与云服务的融合催生算力革命。云算力以按需付费、弹性扩展的模式打破物理边界，让顶尖算力触达全行业。

·2025-04-15 13:40

一文剖析AI大模型技术架构的全景视图：从基础实施层、云原生层、模型层、应用技术层、能力层、到应用层

一、基础设施层AI大模型技术发展离不开坚实的基础设施支持，涵盖了GPU、CPU、RAM、HDD、Network等关键硬件

程序猿李巡天·2025-04-15 11:34

3DGS中的光栅化渲染过程（结合代码）

使用GPU上的Radix排序算法对所有实例化的高斯进行排序，主要依据它们的

蓝羽飞鸟·2025-04-15 05:49

LearnOpenGL学习（高级OpenGL - - 实例化，抗锯齿）

实例化技术本质上是减少了数据从CPU到GPU的传输次数。实例化这项技术能够让我们使用一个渲染调用来绘制多个物体，来节省每次绘制物体时CPU->GPU的通信，它只需要一次即可。

zaizai1007·2025-04-15 01:23

2024pytorch小土堆安装教程（GPU），踩坑总结

目录2024pytorch小土堆安装教程（GPU），踩坑总结本人小白，应老师要求自学深度学习，跟着b站up小土堆老师学习深度学习，第一节课是安装pytorch,在历经三次失败后才获得成功，于是决心写下自己的总结以供大家参考借鉴

m0_hgwxx·2025-04-14 22:36

【李宏毅深度学习——回归模型的PyTorch架构】Homework 1：COVID-19 Cases Prediction (Regression)

目录1、显示NVIDIAGPU的状态信息2、数据集的两种不同的下载方式3、导入相关库4、三个工具函数5、定义自己的数据集类6、定义神经网络模型7、定义选择特征的函数8、训练过程9、超参数字典config10

AI的Learner·2025-04-14 22:35

腾讯逆袭！发布混元T1正式版，实战不输DeepSeek-R1，便宜3/4|黄仁勋为什么一边笑着“认错”，一边给量子计算站台？

智能体不但是AI领域核心，更可能引发科学范式重大变革25万GPU，估值350亿美元冲刺IPO，财务定时炸弹，GenAI不祥之兆元宝“粘”不过豆包OpenAI语音智能体诞生，怼脸实拍语气狂到飞起，API降到每分钟

gzu_01·2025-04-14 20:48

比ollama还强大的LocalAI：解锁本地化AI模型部署教程

不需要GPU。它由EttoreDiGiacinto创建和维护。对话界面生成音频模型概

泰山AI·2025-04-14 17:59

DeepSeek 671B碾压o3-mini，登顶王位

彭铖洋·2025-04-14 10:47

千户级2080Ti GPU局域网集群实现每户家庭虚拟本地部署DeepSeek-R1 671B详细

---##一、项目背景与目标###1.1项目背景-**社区资源整合**：利用1000户家庭闲置的NVIDIAGeForceRTX2080Ti显卡（11GB显存）构建分布式计算集群-**服务需求**：为每户家庭提供本地化虚拟部署的DeepSeek-R1671B大模型推理服务（参数量6710亿）-**技术挑战**：-显存限制：单卡11GB显存支撑千亿级模型-网络延迟：10Gbps局域网下的通信效率优化

icbcnetone·2025-04-14 01:18

NLP高频面试题（三十七）——大模型训练和推理的显存估计

在训练和推理大型语言模型时，显存（GPU内存）的需求是一个关键考虑因素。准确估计这些需求有助于选择合适的硬件配置，确保模型高效运行。

Chaos_Wang_·2025-04-13 23:06

ubuntu20.04系统安装apollo10.0系统

知识搬运工阿杰·2025-04-13 20:14

1.1显存

显存是显卡（GPU）专用的高性能内存，负责存储渲染所需的纹理、帧缓冲、几何数据等。

chxii·2025-04-13 13:00

紫光展锐5G SoC T8300：影像升级，「定格」美好世界

紫光展锐专为全球主流用户打造的畅享影音和游戏体验的5GSoC——T8300，采用6nm工艺，八核CPU及双核GPU架构。

紫光展锐官方·2025-04-13 12:59

android display 笔记（十一）surfaceflinger 如何将图层传到lcd驱动的呢？

SurfaceFlinger->>HWC:提交所有图层（Layer）HWC->>DRM/KMS:硬件合成（Overlay）或GPU合成DRM/KMS->>LCDDriver:配置显示控制器（CRTC/Encoder

那天的烟花雨·2025-04-13 12:27

android display 笔记（十）surfaceflinger与HWC的关系

CLIENT：指“客户端”（即SurfaceFlinger的GPU合成后端）。步骤1：图层收集与准备Surf

那天的烟花雨·2025-04-13 11:52

目前有哪些国产GPU支持DeepSeek？国产GPU支持的DeepSeek模型的性能如何？DeepSeek模型与其他模型相比有什么优势？没有CUDA的GPU可以部署Deepseek

有很多国产GPU支持DeepSeek，以下是一些典型代表：1.景嘉微JM系列：适配了DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B模型

gzgenius·2025-04-13 09:05

码农高射炮·2025-04-13 08:54

TA学习之路——1.6 PC手机图形API介绍

针对GPU。基础概念DrectX,OpenGL,OpenGLESOpenGLES3.0新功能晓龙Adreno对应ES版本型号2基础概念2.1应用端即我们自己的程序端，相对于opengles

鹏易灵·2025-04-13 07:46

MindSpore大语言模型推理：解锁千亿参数模型的高效部署新范式

以Llama2-70B为例，传统部署方案需要8张A100GPU才能完成推理，单次交互成本高达$0.02，这严重制约了大模型的实际

kandfj·2025-04-13 05:37

RK3588 Weston

weston支持的后端3：buildroot中基于meson常用编译指令4：weston中的录屏5：weston的配置文件6：调试信息7：在基于wayland运行Qt程序8：socketdomain信息9：GPU

家有工程师·2025-04-13 03:55

科技快讯 | ChatGPT搜索功能强势来袭；中国首位女航天飞行工程师王浩泽；Claude AI推出桌面平台客户端；Swift 6 正式可用

含金属复杂分子模拟速度创纪录财联社11月1日电，来自美国太平洋西北国家实验室以及匈牙利的科学家，在英伟达公司的高性能图形处理单元（GPU）

最新科技快讯·2025-04-12 23:01

一文理解GPU及英伟达GPU参数汇总

GPU的无限魅力在这个快速发展的数字时代，图形处理单元（GPU）已经成为现代计算技术的核心，超越了它最初的设计目标。

炼丹侠·2025-04-12 22:25

和H100相比，英伟达的H20、L20 和 L2 芯片性能如何？

这三款芯片均基于HopperGPU架构，最高理论性能可达296TFLOP（每秒浮点运算次数，也叫每秒峰值速度）。几乎可以肯定的是，这三款AI芯片均是H100的“阉割版”或“缩水版”。

u013250861·2025-04-12 22:54

GPU集群上分布式训练大模型

总结一下如何在超算系统上进行预训练大模型的分布式训练/微调，文中代码已上传至github实验环境集群1：国家广州超算星逸A800智能AI集群GPU：8*NvdiaTesla-A80080G显存CPU：2

沐岩:)·2025-04-12 21:48

Windows 图形显示驱动开发-WDDM 2.0功能_上下文监视

功能概述上下文监视机制是GPU与CPU协同计算的核心同步技术，通过受监视围栏（MonitoredFence）实现跨硬件单元的高效协调。

程序员王马·2025-04-12 17:54

谁才是AI王者？ DeepSeek、Grok、千问、ChatGPT、Claude大模型终极PK

2月18日，马斯克推出了他的用20万张GPU训练的最新的“地表最强”的大模型Grok3。2月24日，Anthropic开发的最新版本的AI模型Claude-3.7Sonnet公布。

qweqwety·2025-04-12 15:10

NVIDIA 的集合通信库（NVIDIA Collective Communication Library， NCCL）

NVIDIA的集合通信库（NCCL,NVIDIACollectiveCommunicationsLibrary）是一个专为多GPU和分布式计算环境设计的高效通信库。

彬彬侠·2025-04-12 13:00

tensorflow 多GPU训练

使用多块GPU训练多个算法不同算法在不同GPU上训练（实质上还是单GPU--->单算法）以上方法实现的是控制GPU的使用情况多GPU并行训练单个算法数据并行demo不同算法在不同GPU上训练（实质上还是单

马弄一下·2025-04-12 09:59

2025年4月7日--4月13日（learn openg+dx+ogre+bullet+ue5肉鸽）

估计gpu显卡公司没戏了，按照offer的内容进行。周一：9：00-9：40，Learnopengl5.3.1周二进行了两场面试，结果未知。

directx3d_beginner·2025-04-12 01:38

从实践出发：AI智能体GPU算力估算方案全解析——以知识库应用为例

引言：AI智能体时代的算力困境随着大模型与RAG（Retrieval-AugmentedGeneration）技术的普及，新一代AI智能体正呈现知识密集化与响应实时化的双重趋势。但在实际应用中开发者常面临：如何精准估算智能体算力需求？如何在检索精度与响应延迟间找到平衡？本文将以典型知识库智能体为例，手把手拆解算力估算方法论，并给出落地优化建议。一、AI智能体核心架构分解一个完整的知识驱动型智能体通

awei0916·2025-04-11 22:21

【场景应用2】speech_recognition：微调语音模型

根据所选模型和使用的GPU配置，可能需要调整batchsize以避免内存溢出错误。设置这两个参数后，笔记其余部分应能顺利运行：model_checkpoin

AI专题精讲·2025-04-11 21:11

WebXR：WebXR性能优化技巧_2024-07-26_16-19-42.Tex

它扩展了WebGL和WebGPU的能力，允许开发者在网页上构建3D环境，与头戴式显示器、摄像头、传感器等硬件设备进行交互。

chenjj4003·2025-04-11 19:53

Asahi Linux 核心开发者暂停苹果 GPU Linux 驱动开发工作

2025年3月18日，AsahiLinux的开发者AsahiLina在社交媒体BlueSky上宣布，由于个人原因，认为目前继续从事LinuxGPU驱动开发或参与Linux图形生态系统工作存在安全隐患，决定无限期暂停

timer_017·2025-04-11 17:11

架构发展史

GPU架构发展史文章目录前言KelvinRankineCurieTeslaFermiMaxwellPascalVoltaTuringAmpereHopper总结前言英伟达的GPU架构发展KelvinKelvin

Mundaneman·2025-04-11 16:31

DirectX12（D3D12）基础教程四入门指南

2.应用现在拥有将渲染调用分组到图形处理单元(GPU)工作项中的方法。这样可以重复使用。3.应用现在显式控制何时将工作提交到GP

指掀涛澜天下惊·2025-04-11 14:50

推荐频道

gpu

OBS 中不同编码器的预设作用与设置方法详解

PyTorch的benchmark模块

GpuGeek：重构AI算力基础设施，赋能产业智能升级

云原生周刊：K8s 中的 GPU 共享

在ARM架构Mac上部署Python 3.12与Conda环境的全链路指南！！！

大模型训练显存压缩实战：ZeRO-3 vs 梯度累积 vs 量化混合策略

【收藏】KVM GPU虚拟化技术

DeepSeek-R1 私有化部署 ubuntu22.04 3060显卡

利用多GPU计算探索量子无序及AI拓展

性能优化实践

GPU服务器声音很响可以怎么处理

cv::cuda::GpuMat 中的 flags、data、refcount、datastart、dataend 和 allocator 含义

【架构解析】深入浅析DeepSeek-V3的技术架构_deepseek 参数

云原生周刊：K8s 中的 GPU 共享

云算力：重塑各行业数字化转型的核心引擎（上篇）

一文剖析AI大模型技术架构的全景视图：从基础实施层、云原生层、模型层、应用技术层、能力层、到应用层

3DGS中的光栅化渲染过程（结合代码）

LearnOpenGL学习（高级OpenGL - - 实例化，抗锯齿）

2024pytorch小土堆安装教程（GPU），踩坑总结

【李宏毅深度学习——回归模型的PyTorch架构】Homework 1：COVID-19 Cases Prediction (Regression)

腾讯逆袭！发布混元T1正式版，实战不输DeepSeek-R1，便宜3/4|黄仁勋为什么一边笑着“认错”，一边给量子计算站台？

比ollama还强大的LocalAI：解锁本地化AI模型部署教程

DeepSeek 671B碾压o3-mini，登顶王位

千户级2080Ti GPU局域网集群实现每户家庭虚拟本地部署DeepSeek-R1 671B详细

NLP高频面试题（三十七）——大模型训练和推理的显存估计

ubuntu20.04系统安装apollo10.0系统

1.1显存

紫光展锐5G SoC T8300：影像升级，「定格」美好世界

android display 笔记（十一）surfaceflinger 如何将图层传到lcd驱动的呢？

android display 笔记（十）surfaceflinger与HWC的关系

目前有哪些国产GPU支持DeepSeek？国产GPU支持的DeepSeek模型的性能如何？DeepSeek模型与其他模型相比有什么优势？没有CUDA的GPU可以部署Deepseek

计算机图形相关的库

TA学习之路——1.6 PC手机图形API介绍

MindSpore大语言模型推理：解锁千亿参数模型的高效部署新范式

RK3588 Weston

科技快讯 | ChatGPT搜索功能强势来袭；中国首位女航天飞行工程师王浩泽；Claude AI推出桌面平台客户端；Swift 6 正式可用

一文理解GPU及英伟达GPU参数汇总

和H100相比，英伟达的H20、L20 和 L2 芯片性能如何？

GPU集群上分布式训练大模型

Windows 图形显示驱动开发-WDDM 2.0功能_上下文监视

谁才是AI王者？ DeepSeek、Grok、千问、ChatGPT、Claude大模型终极PK

NVIDIA 的集合通信库（NVIDIA Collective Communication Library， NCCL）

tensorflow 多GPU训练

2025年4月7日--4月13日（learn openg+dx+ogre+bullet+ue5肉鸽）

从实践出发：AI智能体GPU算力估算方案全解析——以知识库应用为例

【场景应用2】speech_recognition： 微调语音模型

WebXR：WebXR性能优化技巧_2024-07-26_16-19-42.Tex

Asahi Linux 核心开发者暂停苹果 GPU Linux 驱动开发工作

架构发展史

DirectX12（D3D12）基础教程四 入门指南

【场景应用2】speech_recognition：微调语音模型

DirectX12（D3D12）基础教程四入门指南