cuda(GPU 第35页

GLake：优化GPU内存管理与IO传输的开源项目

GLake：突破GPU内存和IO瓶颈的利器在人工智能快速发展的今天，大模型训练和推理正面临着严峻的挑战。

2401_87458718·2025-02-26 02:35

llama-cpp-python本地部署并使用gpu版本

使用带编译的命令安装llama库#首选GGML_CUDA后续LLAMA_CUBLAS将删除CMAKE_ARGS="-DGGML_CUDA=on"FORCE_CMAKE=1pipinstallllama-cpp-python

i__chen·2025-02-26 02:03

Vulkan：Vulkan物理模拟与碰撞检测技术教程_2024-07-20_15-47-39.Tex

它由KhronosGroup开发，旨在提供高性能的图形渲染和计算能力，同时减少CPU的开销，提高GPU的利用率。

chenjj4003·2025-02-26 01:58

Anaconda 2025 最新版安装与Python环境配置指南（附官方下载链接）

一、软件定位与核心功能Anaconda2025是Python/R数据科学集成开发平台，预装1500+科学计算库，新增AI模型可视化调试、多环境GPU加速等特性。

waicsdn_haha·2025-02-26 00:22

梯度累加（结合DDP）梯度检查点

通常，较大的批量可以提高训练的稳定性和效率，但受限于GPU或TPU的内存，无法一次性加载大批量数据。梯度累积通过多次前向传播和反向传播累积梯度，然后一次性更新模型参数，从而模拟大批量训练的效果。

糖葫芦君·2025-02-25 23:16

PyNvVideoCodec解码使用

解码视频生成器例子，支持解码视频和视频流try:importtimefromfunctoolsimportwrapsimportcv2importnumpyasnpimportpycuda.driverascudaimportPyNvVideoCodecasnvcimportctypesasCimportosexceptImportErrorase

huomama·2025-02-25 22:11

突破性能极限：DeepSeek开源FlashMLA解码内核技术解析

Shockang·2025-02-25 22:09

PaddleOCR环境搭建(记录)

需nvidia下载zlib包即C:\ProgramFiles\NVIDIAGPUComputingToolkit\CUDA\v1

江木27·2025-02-25 21:04

探秘 DeepSeek 硬件适配：GPU/TPU/NPU 异构计算原理剖析

DeepSeek作为前沿且极具创新性的技术框架，在与GPU、TPU、NPU等异构硬件的融合适配方面展现出卓越特性。

FinkGO小码·2025-02-25 18:11

Flutter-Android编译报错与解决方案汇总

because“”isnull解决方案：IsolvedthisproblembyupgradingAndroidGradlePlugintoversion8.3.1.YoucanuseTools->AGPUpgradeAssistanttoupgradeAndroidGr

ShawnRacine·2025-02-25 09:35

Miniconda配置——conda虚拟环境的日常使用

xMiniconda3-latest-Linux-x86_64.shbashMiniconda3-latest-Linux-x86_64.sh#记住更新PATH到~/.bashrc时选noConda、CUDA

guikunchen·2025-02-25 06:13

RTX 3090图形处理巅峰性能解析

通过对比测试数据与工程原理分析，重点探讨24GBGDDR6X显存在8K分辨率场景下的带宽利用率，以及10496个CUDA核心在光线追踪与深度学习超采样（DLSS）任务中的动态负载分

智能计算研究中心·2025-02-25 03:26

部署 Llama 3.1 405B：分步指南,深入研究 Llama 最新模型 Llama 3.1 4050 亿参数模型的部署。这个强大的模型需要大量的 VRAM，特别是 4 位量化版本需要 231 G

但是，经过一些优化，我们可以使用8x4090GPU在192GB上运行它。最好的部分？我们只需要运行三个终端命令即可完成所有设置。

知识大胖·2025-02-25 02:47

Python的PyTorch+CNN深度学习技术在人脸识别项目中的应用

硬件加速：GPU、TPU等加速计算，提升实

mosquito_lover1·2025-02-25 01:07

使用 DeepSeek 和 Streamlit 构建 AI 驱动的 SQL 查询应用程序

知识大胖·2025-02-25 01:06

pytorch3d安装记录

pytorch3d/blob/main/INSTALL.md通过pip或conda可以很容易安装上预编译好的包，安装过程不会报错，但是使用的时候就会报各种错误，原因是预编译好的包跟自己的环境不一定匹配，比如CUDA

leo0308·2025-02-24 23:57

cap4：YoloV5的TensorRT部署指南（python版）

《TensorRT全流程部署指南》专栏文章目录：《TensorRT全流程部署指南》专栏主页cap1：TensorRT介绍及CUDA环境安装cap2：1000分类的ResNet的TensorRT部署指南（

我是一个对称矩阵·2025-02-24 21:14

[15] 使用Opencv_CUDA 模块实现基本计算机视觉程序

使用Opencv_CUDA模块实现基本计算机视觉程序CUDA提供了出色的接口，发挥GPU的并行计算能力来加速复杂的计算应用程序利用CUDA和Opencv的功能实现计算机视觉应用1.对图像的算术和逻辑运算两个图像相加

明月醉窗台·2025-02-24 18:51

ubuntu多版本cuda如何指定cuda版本

本文作者：slience_meubuntu多版本cuda如何指定cuda版本文章目录ubuntu多版本cuda如何指定cuda版本1.关于cuda设置1.1查看当前安装的CUDA版本1.2下载并安装所需的

slience_me·2025-02-24 15:00

显卡3050ti等安培架构的GPU安装paddlepaddle

3050ti等安培架构的GPU安装paddlepaddle官网原话如果您使用的是安培架构的GPU，推荐使用CUDA11.2如果您使用的是非安培架构的GPU，推荐使用CUDA10.2，性能更优其他配套确定软件版本后

社会闲散人员中的代码爱好者·2025-02-24 14:49

什么是Grok-3？技术特点，场景，潜在问题与挑战

Grok-3的技术特点与优势1.超大算力与训练规模算力投入：Grok-3使用了20万块英伟达H100GPU，分两个阶段训练（第一阶段10万GPU训练144天，第二阶段20万GPU训练92天），总计算量是前代

AndrewHZ·2025-02-24 13:46

简单介绍 NVIDIA推出的图形处理单元（GPU）架构“安培架构“

概念"安培架构"（AmpereArchitecture）是NVIDIA推出的一款图形处理单元（GPU）架构，它是继图灵架构之后的下一代产品。

神仙约架·2025-02-24 13:13

ChatTTS-ui模型概述、安装及使用方法说明

的安装与配置1.安装Python和Git环境2.下载ChatTTS-ui源码3.创建并激活虚拟环境4.安装依赖5.启动应用四、ChatTTS-ui的高级功能1.API调用2.音色自定义3.细粒度控制4.GPU

醉心编码·2025-02-24 12:38

Ollama 部署指南（Windows）

Ollama现在作为本机Windows应用程序运行，包括NVIDIA和AMDRadeonGPU支持。

圣心·2025-02-24 11:27

适用于呼叫中心质检的离线ASR模型

支持GPU/CPU部署，提供Python和C++接口。部署

狂爱代码的码农·2025-02-24 08:07

GPU与FPGA加速：硬件赋能AI应用

GPU与FPGA加速：硬件赋能AI应用1.背景介绍1.1人工智能的兴起人工智能(AI)在过去几年中经历了爆炸式增长,成为推动科技创新的核心动力。

AI天才研究院·2025-02-24 01:20

（14）FPGA与GPU区别

（14）FPGA与GPU区别1文章目录1）文章目录2）FPGA入门与提升课程介绍3）FPGA简介4）FPGA与GPU区别5）技术交流6）参考资料2FPGA入门与提升课程介绍1）FPGA入门与提升文章目的是为了让想学

宁静致远dream·2025-02-24 01:18

GPU和FPGA的区别

GPU（GraphicsProcessingUnit，图形处理器）和FPGA（Field-ProgrammableGateArray，现场可编程门阵列）不是同一种硬件。

Florence23·2025-02-24 00:44

在 GPU 上实现全规模文件系统加速

摘要现代高性能计算和人工智能计算解决方案经常使用GPU作为其主要计算能力来源。这就为GPU应用程序的存储操作造成了严重的不平衡，因为每一个此类存储操作都必须向CPU发出信号并由CPU处理。

·2025-02-23 16:04

前端面试题（超全！）

（2）那么就拿html和css来说，是靠GUI来渲染的，那么如果要避免回流重绘，需要靠GPU进程完成，这样性能会好。（3）js是靠渲染进程的渲

技术猿禁·2025-02-23 15:06

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

它是为在消费级GPU服务器上高效部署而设计的。我们的工作直接面对一个关键的行业

UnknownBody·2025-02-23 14:58

NVIDIA-vGPU介绍和下载地址以及安装流程

这里以NVIDIA-Linux-x86_64-470.63-vgpu-kvm.run文件进行介绍和下载安装NVIDIA-Linux-x86_64-470.63-vgpu-kvm介绍NVIDIA-Linux-x86

萌萌哒240·2025-02-23 13:56

骁龙 8 至尊版：AI 手机的变革先锋

目录引言性能跃升：AI手机的强劲根基（一）CPU性能革命（二）GPU图形进化（三）NPU智能核心AI体验革新：多维度的智能进化（一）个性化多模态AI助手（二）影像体验的AI重塑（三）游戏体验的AI赋能生态合作与未来展望引言在当今科技飞速发展的时代

倔强的小石头_·2025-02-23 12:44

NVIDIA A100 SXM4与NVIDIA A100 PCIe版本区别深度对比：架构、性能与场景解析

NVIDIAA100SXM4与PCIe版本深度对比：架构、性能与场景解析作为NVIDIAAmpere架构的旗舰级数据中心GPU，A100系列凭借强大的计算能力和显存带宽，已成为人工智能训练、高性能计算（

ASI人工智能·2025-02-23 09:55

手把手教你本地部署DeepSeek大模型！从环境搭建到数据训练全流程实战

DeepSeek作为国产优秀大模型，支持本地化部署和私有数据训练，可完美解决：数据不出内网：医疗/金融等敏感行业刚需垂直领域定制：用自有数据打造专属AI助手算力自由掌控：灵活调配GPU资源，成本可控本文将带你从零完成

菜鸟养成_记·2025-02-23 08:16

英伟达（NVIDIA）芯片全解析：专业分类、应用场景与真实案例

NVIDIA不仅仅是“游戏显卡”的代名词，它的GPU和AI计算平台已经广泛应用于人工智能（AI）、自动驾驶、医疗影像、工业自动化、智能家居等领域。那么，NVIDIA的芯片有哪些分类？它们分别用在哪里？

嵌入式Jerry·2025-02-23 06:31

deepseek-r1系列模型私有化部署分别需要的最低硬件配置

系列模型部署所需的最低硬件配置如下‌：‌DeepSeek-R1-1.5B‌‌CPU‌：最低4核（推荐多核处理器）‌内存‌：8GB+‌硬盘‌：3GB+存储空间（模型文件约1.5-2GB）‌显卡‌：非必需（纯CPU推理），若GPU

Sophie'sCookingLab·2025-02-23 05:21

vllm安装及总结

vllm的安装和使用，对torch、cuda、xformers等有较多的版本依赖，过程中有一些曲折，故整理记录如下。

赫连达·2025-02-23 04:19

前端性能优化:页面加载速度慢怎么办？

缓存静态资源缓存webpack的hash策略-文件资源缓存减少资源请求量图片懒加载代码构建优化webpack资源压缩treesharking-js代码的精简分包按需加载浏览器渲染优化webworkerGPU

好运连连女士·2025-02-22 20:12

一个完全免费、私有且本地运行的搜索聚合器-FreeAskInternet

什么是FreeAskInternetFreeAskInternet是一个完全免费、私有且本地运行的搜索聚合器，使用LLM生成答案，无需GPU。

星霜笔记·2025-02-22 18:24

深入解析C++26 Execution Domain：设计原理与实战应用

一、Domain设计目标与核心价值Domain是C++26执行模型的策略载体，其核心解决两个问题：执行策略泛化：将线程池、CUDA流等异构调度逻辑抽象为统一接口策略组合安全：通过类型隔离避免不同执行域的策略污染

C语言小火车·2025-02-22 15:00

【2024 Dec 超实时】编辑安装llama.cpp并运行llama

以下是可以完美编译llama.cpp的测试工具版本号：gcc9g++9#只要大于等于9版本都集成了cmake是要的c++17指令集，gcc8测试了要手动软链麻烦反正凉cuda11.

AI．愚人自愈·2025-02-22 13:45

如何评估代理IP服务对AI大模型训练的影响

工程师们往往更关注GPU型号或算法优化，却容易忽略网络链路这个隐形变量。本文将以可复现的测试方法，拆解代理IP对训练效果的三大影响维度，手把手教您建立科学的评估体系。

·2025-02-22 08:33

YOLOv11快速上手：如何在本地使用TorchServe部署目标检测模型

环境准备在开始之前，确保你的开发环境满足以下要求：Python版本：3.8或以上PyTorch：1.9或以上CUDA：如果使用GPU，加速训练和推理TorchServe：用于模型

SYC_MORE·2025-02-22 07:57

DeepSeek的架构设计

DeepSeek的架构设计一、基础架构层1.超大规模算力集群跨地域异构计算:南京/临港等多地超算中心构建混合集群，10万+GPU卡规模（含H100/A100等），通过自研RDMA网络实现μs级延迟能效优化

程序猿000001号·2025-02-22 06:24

哪种LLM量化方法最适合您？：GGUF、GPTQ 还是 AWQ

它允许用户在CPU上运行LLM，同时通过提供速度改进将一些层卸载到GPU。GGUF对于那些在CPU或Apple设备上运行模型的用户特别有用。在GGUF上

GordonJK·2025-02-22 05:38

马斯克发布的Grok3如何,大家如何评价

技术特点与性能计算能力：Grok3的训练使用了约10万块GPU卡，计算能力是上一代Grok2的10倍。这种大规模的计算资源投入使得Grok3在推理能力和逻辑一致性方面表现出色。多模态与实时数据处

魔王阿卡纳兹·2025-02-22 01:30

GPU渲染管线——处理流程总结

GPU图形渲染管线图形渲染管线（GraphicsRenderingPipeline）是GPU渲染三维场景的主要工作流程。它是一个逐步处理的框架，将三维场景的数据转化为屏幕上的二维图像。

fengnian18·2025-02-21 22:39

尝试在exo集群下使用deepseek模型：第一步，调通llama

exo是一个多机协同AI大模型集群软件，它可以将多种设备统一成一个强大的GPU，支持多种模型，并具有动态模型分区、自动设备发现等功能‌。

skywalk8163·2025-02-21 22:33

蓝耘科技上线 DS 满血版，500万tokens免费送！

立志在坚不欲说，成功在久不在速欢迎关注：点赞⬆️留言收藏欢迎使用：小智初学计算机网页AI蓝耘元生代智算云架构蓝耘元生代智算云平台是一个现代化的、基于Kubernetes的云平台，专为大规模GPU加速工作负载而构建

Lethehong·2025-02-21 19:16

推荐频道

cuda(GPU