gpu 第22页

屏幕刷新机制（一）：机制

SurfaceFlinger综述屏幕整体刷新机制：就是通过Choreographer、SurfaceFlinger，以垂直同步技术(VSYNC)加三重缓冲技术(TripleBuffer)的方案，保证CPU计算/GPU

yueqc1·2025-03-27 22:56

基于EasyOCR实现的中文、英文图像文本识别

pipinstalleasyocr主要特点：多语言支持：支持80+种语言的识别，包括中文、英文、日文、韩文等简单易用：几行代码即可实现OCR功能预训练模型：提供开箱即用的预训练模型GPU加速：支持CUDA

听风吹等浪起·2025-03-27 15:31

本地部署 Stable Diffusion3

本文将在本地部署SD3，GPU配置如下GPU2080TI/22G安装依赖修改WORKSPACE位置信息，安装ComfyUI##@titleEnvironmentSetupfrompathlibimportPathOPTIONS

hawk2014bj·2025-03-27 10:24

【Triton 教程】triton_language.num_programs

它旨在提供一个基于Python的编程环境，以高效编写自定义DNN计算内核，并能够在现代GPU硬件上以最大吞吐量运行。

HyperAI超神经·2025-03-27 08:38

DeepSeek-R1满血版私有化部署整体方案

一、硬件配置方案‌单节点基础配置‌‌服务器型号‌：戴尔PowerEdgeR760xaGPU服务器‌CPU‌：双路AMDEPYC9654(96核/192线程，支持PCIe5.0)‌34‌内存‌：1TBDDR5ECC

A管哥@IT运维·2025-03-27 08:38

DeepSeek 本地部署详细教程

一、环境准备1.1硬件要求GPU：推荐NVIDIA显卡（RTX3090/4090或更高）显存：至少16GB（根据模型版本调整）内存：32GB及以上存储：50GB可用空间1.2软件依赖操作系统：Linux

文or野·2025-03-27 04:07

CUDA 学习(4)——CUDA 编程模型

CPU和GPU由于结构的不同，具有不同的特点：CPU：擅长流程控制和逻辑处理，不规则数据结构，不可预测存储结构，单线程程序，分支密集型算法GPU：擅长数据并行计算，规则数据结构，可预测存储模式在现在的计算机体系架构中

哦豁灬·2025-03-27 02:51

《今日AI-人工智能-编程日报》--源自2025年3月25日

1.AI芯片与技术动态英伟达下一代“Rubin”GPU将采用台积电SoIC封装技术，与AMD、苹果共同推进先进封装工艺，预计2025年下半年量产。

小亦编辑部·2025-03-26 22:28

Unsloth 库和Hugging Face Transformers 库对比使用

它通过优化计算步骤和GPU内核，显著提升训练速度并减少内存使用。

背太阳的牧羊人·2025-03-26 21:17

手把手带你在Windows中搭建本地知识库（基于ollama本地部署大模型+客户端安装版AnythingLLM）非docker环境部署

一、Ollama安装Ollama是一个专注于本地运行大型语言模型（LLM）的框架，它使得用户能够在自己的计算机上轻松地部署和使用大型语言模型，而无需依赖昂贵的GPU资源。

慕慕涵雪月光白·2025-03-26 18:24

GPU的架构&原理解析

GPU（GraphicsProcessingUnit，图形处理单元）是一种专门设计用于并行计算的硬件设备，最初用于加速图形渲染任务，但随着技术的发展，GPU已经成为通用计算（GPGPU,General-PurposecomputingonGraphicsProcessingUnits

大数据追光猿·2025-03-26 17:18

获取GPU信息 --createWindowSurface EGL_BAD_NATIVE_WINDOW -- failed: EGL_BAD_MATCH

之前网上有很多关于获取GPU信息的帖子，大部分手机都可以获取到，但部分奇葩就不行了。

jiantaocd·2025-03-26 16:41

水冷技术：高效散热的革新之路

水冷（WaterCooling）是一种利用水或水基冷却液作为热传导介质的散热技术，通过循环系统将热量从热源（如CPU、GPU、发动机等）传递到散热器，最终通过空气对流或外部环境释放热量。

飞天kuma·2025-03-26 14:28

k8s集群添加一个新GPU节点

前提现在是已经搭建好一个GPU集群，需要添加一个新的节点（3090卡），用来分担工作，大致可以分为以下几个部分：1，安装GPU驱动2，安装docker3，安装cri-dockerd4，离线安装Nvidia-container-toolkit5

thinkerCoder·2025-03-26 13:49

NVIDIA Cosmos-Transfer1：重塑物理AI训练的革命性“世界生成器”

2025年3月22日在2025年GPU技术大会（GTC）上，英伟达（NVIDIA）重磅发布了其最新AI模型Cosmos-Transfer1，这一突破性技术通过多模态空间控制输入生成高度逼真的虚拟世界，为机器人

未来智慧谷·2025-03-26 05:16

H100赋能生成式AI算力革新

内容概要NVIDIAH100GPU的推出标志着AI算力架构的范式革新。

智能计算研究中心·2025-03-26 04:13

如何利用多张 GPU 高效运行 Ollama

在当今的人工智能和机器学习领域，利用多GPU进行加速计算已经成为提升性能的关键手段。本文将详细介绍如何在系统中使用多张GPU来运行Ollama，充分发挥硬件的强大性能。

刘怼怼·2025-03-26 01:20

Ray 源码分析(16)—Ray Serve

它具有多项用于服务大语言模型的特性和性能优化，例如响应流、动态请求批处理、多节点/多GPU服务等。据说OpenAI背后用

Jim.Li·2025-03-26 01:15

Ray 源码分析系列(2)—编译

编译步骤1.下载代码仓库gitclonehttps://github.com/ray-project/ray.git2.下载官方镜像由于习惯用gpu的镜像开发与调试，直接来个gpu版本的。

Jim.Li·2025-03-26 01:45

NVIDIA GTC 开发者社区Watch Party资料汇总

NVIDIAGTC开发者社区WatchParty资料汇总以下是所有涉及到的工具中文解读汇总，希望可以帮到各位：1.CUDA编程模型开发者指南和最新功能解析专栏2.NVIDIAWarp：高性能GPU模拟与图形计算的

扫地的小何尚·2025-03-26 00:41

国内GPU算力租用平台

GPU算力租用平台为深度学习、科学计算、图形渲染等领域的研究者、开发者及企业提供了强大的计算支持。

君君学姐·2025-03-25 21:15

发布AiCube DeepSeek一体机，中兴通讯加速AI大模型商业化落地

AiCubeDeepSeek一体机通过软硬件一体化设计，支持DeepSeek等大模型在不同计算架构GPU间的无缝迁移，显著提升了部署效率和安全性。

蜂耘·2025-03-25 21:13

WebGPU实战：Three.js性能优化新纪元

一、WebGPU技术突破解析1.1传统WebGL的架构瓶颈graphLRA[JavaScript]-->B[WebGLBinding]B-->C[OpenGLES]C-->D[GPUDriver]D--

AWS官方合作商·2025-03-25 13:46

在GpuGeek上创建实例如何自定义环境？

Step2：安装Python登录实例终端，根据需要的Python版本创建虚拟环境：condacreate-ngpugeekpython==3.8.10condaactivategpugeekpython3

·2025-03-25 13:48

本机（Windows）和服务器（Linux）之间传输文件的命令

将本机文件上传至服务器的命令：scp-P端口号"D:\test\1.txt"root@i-2.gpushare.com:/hy-tmp/datasets功能为将D盘根目录下test文件夹中的1.txt上传至服务器的

catchtimea·2025-03-25 11:05

Tensorflow 2 单GPU同时训练多个模型

Tensorflow2单GPU同时训练多个模型问题有时我们需要对多个模型进行性能对比。若一次只训练一个模型，我们需要时刻关注训练进度，非常耗费精力。同时进行多个模型的训练能够降低人力成本。

TTTYYZZ·2025-03-25 07:36

怎么在linux服务器选择GPU进行训练模型？

首先查看当前节点有那些可用的GPU：使用nvidia-smi命令来查询Linux服务器上可用的GPUnvidia-smi命令会输出一些关于服务器上NVIDIAGPU的信息，包括每个GPU的型号、驱动版本

LRJ-jonas·2025-03-25 07:03

如何在多个GPU中训练非常大的模型？

目录一、并行训练策略1.数据并行2.模型并行3.混合并行：4.上下文并行二、内存优化技术三、总结在多个GPU上训练超大规模模型（如千亿参数级语言模型）需要结合并行策略、内存优化技术、分布式框架。

Mr终游·2025-03-25 07:00

轻量级AI革命：无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配推荐

随着人工智能技术的快速发展，大语言模型已成为推动产业智能化的重要工具。在这一领域，DeepSeek系列模型凭借其创新的架构和高效的性能，成为众多开发者和企业关注的焦点。而其中的R1-1.5B模型，作为家族中参数量最小、资源需求最低的版本，更是备受青睐。下面就让我们来看看DeepSeek各模型之间的性能差异、应用场景，以及部署R1-1.5B模型时所需的云服务器配置。DeepSeek开源模型官方文档一

·2025-03-25 04:09

【CUDA】了解GPU架构

目录一、初步认识二、Fermi架构三、Kepler架构3.1动态并行3.2Hyper-Q一、初步认识SM（StreamingMultiprocessors）是GPU架构中非常重要的部分，GPU硬件的并行性就是由

GG_Bond21·2025-03-25 04:07

AMD RDNA3 GPU架构解析

本文会通过把AMD的RDNA3架构为例比喻为施工公司工作模式，深入理解GPU如何高效处理顶点着色、像素计算等任务。一、施工公司的组织架构1.施工公司（WGP）与施工队（CU

颜早早·2025-03-25 01:46

0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS

大模型推理引擎的基本工作模式可以概括为，接收包括输入prompt和采样参数的并发请求，分词并且组装成batch输入给引擎，调度GPU执行前向推理，处理计算结果并转为词元返回给用户。

·2025-03-24 15:38

一文搞懂ASIC和GPU

近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。

·2025-03-24 15:08

OpenRAND可重复的随机数生成库

特征跨平台支持：OpenRAND旨在跨各种平台无缝工作，包括CPU和GPU。其仅标题库设计使其能够轻松集成到您的项目中。

novanova2009·2025-03-24 12:41

基于WebAssembly的浏览器密码套件

2.1WebAssembly技术概述2.2浏览器密码套件的需求三、系统设计思路与架构3.1核心模块3.2系统整体架构图四、核心数学公式与算法证明4.1AES-GCM加解密公式4.2SHA-256哈希函数五、异步任务调度与GPU

闲人编程·2025-03-24 09:13

使用 Baseten 部署和运行机器学习模型的指南

无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同

shuoac·2025-03-24 03:17

机器学习 Day01人工智能概述

1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。

山北雨夜漫步·2025-03-23 22:58

【最新】TensorFlow、cuDNN、CUDA三者之间的最新版本对应及下载地址

TensorFlow、cuDNN、CUDA对应关系官网查询地址CUDA下载地址cuDNN下载地址VersionPythonversionCompilerBuildtoolscuDNNCUDAtensorflow_gpu

江上_酒·2025-03-23 21:25

【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】

文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是

待磨的钝刨·2025-03-23 18:53

H800能效架构实战解析

在架构设计中，异构资源调度算法通过实时分析任务特征与硬件状态，动态分配CPU、GPU及专用加速器资源，最大化硬件利用率；动态功耗模块则基于负载波动自适应调整供电策略，结合多级电压频率

智能计算研究中心·2025-03-23 15:56

AI大模型训练教程

2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin

Small踢倒coffee_氕氘氚·2025-03-23 12:07

英伟达常用GPU参数速查表，含B300.....

英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域

Ai17316391579·2025-03-23 11:59

学习笔记——GPU

注：本文中GPU的讲解以A100型号为例，V100跟A100的架构差别不大也可适用，但是其他架构可能会有所出入。

鹤岗小串·2025-03-23 09:17

显卡（Graphics Processing Unit，GPU）架构详细解读

显卡架构主要分为两大类：GPU核心架构（也称为图形处理单元架构）和显卡的其他组件（如内存、控制器、输出接口等）。

m0_74824112·2025-03-23 06:44

GPU架构分类

一、NVIDIA的GPU架构NVIDIA是全球领先的GPU生产商，其GPU架构在图形渲染、高性能计算和人工智能等领域具有广泛应用。

大明者省·2025-03-23 06:11

一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）

文章目录一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解

AI天才研究院·2025-03-23 02:36

大规异构集群混合并行分布式训练系统，解决算力不均衡问题 HETHUB

视频教程在这：3.2大规模异构集群，混合并行分布式系统，解释算力不均衡问题HETHUB_哔哩哔哩_bilibili一、大规模异构集群出现的原因：同一种GPU数量有限难以构建大规模集群：训练大规模模型依赖于大量的计算资源

爱串门的小马驹·2025-03-22 16:29

MiniMind：3小时完全从0训练一个仅有26M的小参数GPT，最低仅需2G显卡即可推理训练！

概述MiniMind是一个开源的微型语言模型，它的设计目标是让个人GPU用户也能够快速推理甚至训练语言模型。它的体积仅为26M，大约是GPT3的1/7000，非常适合快速部署和实验。

哈罗·沃德·2025-03-22 15:19

GPU计算的历史与CUDA编程入门

GPU计算的历史与CUDA编程入门背景简介GPU计算的历史可以追溯到早期的并行计算研究，如今已发展成为计算机科学中的一个重要分支。

己见明·2025-03-22 12:49

GTC 2025 中文在线解读

作为GPU计算领域的基石，CUDA通过其编程语言、编译器、运行时环境及核心库

扫地的小何尚·2025-03-22 11:17

推荐频道

gpu