GPU加速第8页

【vLLM 学习】Eagle

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-07-09 21:34

推测性解码：加速多模态大型语言模型的推理

大模型（LLMs）以其卓越的性能在多个应用场景中大放异彩。然而，随着应用的深入，这些模型的推理速度问题逐渐凸显。为了解决这一挑战，推测性解码（SpeculativeDecoding,SPD）技术应运而生。本文深入探讨了SPD在多模态大型语言模型（MLLMs）中的应用，尤其是针对LLaVA7B模型的优化。MLLMs通过融合视觉和文本数据，极大地丰富了模型与用户的互动，但同时也面临着自回归生成和内存带

人工智能培训咨询叶梓·2025-07-09 21:25

huggingface笔记：文本生成Text generation

AutoModelForCausalLMimporttorchimportosmodel=AutoModelForCausalLM.from_pretrained("gpt2",device_map="auto",#自动分配到所有可用设备（优先GPU

UQI-LIUWJ·2025-07-09 21:23

CDN分发加速技术详解

引导用户访问最优节点内容预取与缓存：热点内容提前部署到边缘2.典型CDN架构组成用户请求→智能DNS→边缘节点(EdgeServer)↑二级节点(Mid-tier)↑源站(OriginServer)关键加速技术

Dream Algorithm·2025-07-09 19:45

区块链技术促进算力生态发展的具体案例

以下是一些区块链技术促进算力生态发展的具体案例：-Origins公链整合GPU资源：Origins公链构建于以太坊之上，致力于连接全球的GPU资源。

VV- Wxiaoxwen·2025-07-09 19:44

onnxruntime-1.22.0交叉编译arm64目标平台

1背景在上一实践《sherpa-onnxAI语音框架添加acl加速库实践》中，笔者基于最新github源码版本编译出的onnxruntime动态库（包括acl库)测试效果不理想，后续尝试下载onnxruntime

·2025-07-09 18:36

【NVIDIA-H100】基于 nvidia-smi 数据H100 GPU 功耗异常深度分析与解决方案

目录一、引言二、GPU功耗与温度管理基础逻辑（一）GPU温度调控机制（二）功耗与温度的关联逻辑三、3号H100GPU异常数据深度拆解（一）正常卡与异常卡数据对比（核心指标）（二）异常指标的物理意义四、功耗低的根源分析

清风 001·2025-07-09 17:01

黑洞加速器官方android安卓版本,www.a0qmherg.com

DomainName:A0QMHERG.COMRegistryDomainID:2477874593_DOMAIN_COM-VRSNRegistrarWHOISServer:whois.namesilo.comRegistrarURL:http://www.namesilo.comUpdatedDate:2020-01-09T05:00:47ZCreationDate:2020-01-09T04:

·2025-07-09 16:23

QY-18A 远程倾斜位移监测仪 X、Y、Z三方向姿态倾斜加速度倾角位移变化全监测

技术参数测量参数加速度测量范围：±2g测量精度：±

zhang13383089075·2025-07-09 15:45

如何在 Android Framework层面控制高通（Qualcomm）芯片的 CPU 和 GPU。

如何在AndroidFramework层面控制高通（Qualcomm）芯片的CPU和GPU。

YoungHong1992·2025-07-09 12:24

从UI设计到数字孪生实战：构建智慧教育的个性化学习平台

一、引言：数字孪生重构智慧教育的技术范式在教育数字化转型加速推进的背景下，传统在线教育正面临"个性化不足、学习体验单一、效果评估滞后"的瓶颈。

·2025-07-09 08:57

探秘Xtoon Boot DDD：以领域驱动设计重塑微服务架构

而是一个基于SpringBoot的轻量级框架，旨在简化和加速DDD

·2025-07-09 07:48

MySQL创建索引与索引失效场景

;删除索引dropindex索引名on表名;主键索引主键索引是一种特殊的唯一索引，一个表只能有一个主键，一般以表的id字段为主键ALTERTABLE表名ADDPRIMARYKEY(列名);普通索引可以加速查询

我叫晨曦啊·2025-07-09 06:40

【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署

文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理CLI推理性能测试小结验证是否严重退化使用NVIDIATriton部署在线推理服务器代码弄下来编译镜像启动容器安装依赖量化构建trtengines图Triton模板说明实操发起Tr

XD742971636·2025-07-09 06:40

TensorRT-LLM：大模型推理加速引擎的架构与实践

前言：技术背景与发展历程：随着GPT-4、LLaMA等千亿级参数模型的出现，传统推理框架面临三大瓶颈：显存占用高（单卡可达80GB）、计算延迟大（生成式推理需迭代处理）、硬件利用率低（Transformer结构存在计算冗余）。根据MLPerf基准测试，原始PyTorch推理的token生成速度仅为12.3tokens/s（A100显卡）。一、TensorRT-LLM介绍：TensorRT-LLM是

·2025-07-09 05:03

Tesla的FSD 架构设计

特斯拉的FSD（完全自动驾驶）架构设计以端到端神经网络为核心，结合专用硬件加速、海量数据训练和持续OTA迭代，形成了一套高度集成的系统。

WSSWWWSSW·2025-07-09 04:30

「源力觉醒创作者计划」_以FastDeploy为例部署ERNIE-4.5-21B大模型全流程实践

目录前言1环境准备与依赖安装1.1硬件要求1.2Python环境与pip升级2下载ERNIE-4.5模型权重2.1安装HuggingFaceCLI工具2.2设置国内镜像加速（可选）2.3下载模型文件3安装

cooldream2009·2025-07-09 02:17

深度学习-Tensor

Tensor张量：与numpy中的ndarray不同之处：tensor可以在GPU或其他专用硬件上运行，以加速计算。

·2025-07-09 02:15

AI初学者如何对大模型进行微调？——零基础保姆级实战指南

仅需8GB显存，三步完成个人专属大模型训练四步实战：从环境配置到模型发布步骤1：云端环境搭建（10分钟）推荐使用阿里魔塔ModelScope免费GPU资源：#注册后执行环境初始化pip3install-

·2025-07-09 02:15

【容器】优质文章分享

文章目录加速器Docker教程安装坑volumn网络配置踩坑其他dockerfiledocker-compose手册教程网络坑docker使用dockermysqldockermongoredisdocker-rabbitmqnginxtomcatnacoszookeeperelasticsearch

·2025-07-09 01:40

基于存算一体架构的实时深度学习推理优化

基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势1.能效比突破2.实时性保障架构设计与实现技术1.存储单元创新2.硬件加速器设计

瑕疵·2025-07-09 01:39

服务器无对应cuda版本安装pytorch-gpu[自用]

服务器无对应cuda版本安装pytorch-gpu服务器无对应cuda版本安装pytorch-gpu网址下载非root用户安装tmux查看服务器ubuntu版本conda安装tensorflow-gpu

片月斜生梦泽南·2025-07-09 00:02

「论文导读」LLM高效推理与模型量化

论文探讨如何通过优化训练数据、模型架构和推理技术，在有限硬体资源（如单一GPU或CPU）上实现高效推理。学术背景：随着大型语言模型（LLM）如GPT-3的

雷羿 LexChien·2025-07-09 00:01

光子-eBPF协同架构设计与硅光哈希加速实现路径（2025技术全景）

一、技术架构核心设计1.硅光-电子混合计算架构基于Nature2025年论文中"集成超16,000光子组件的大型加速器"设计理念，构建分层处理体系：元数据提取协议卸载

百态老人·2025-07-08 22:23

华为OD机试 - GPU 调度（Python/JS/C/C++ 2025 A卷 100分）

华为OD机试2025A卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述任务编排服务负责对任务进行组合调度。参与编排的任务有两种类型，其

哪吒·2025-07-08 21:15

大模型开源与国产化突围：技术路径与产业机遇深度解析

一、全球开源格局与中国大模型现状1.1国际开源生态的演进特征技术民主化加速：LLaMA-2（700亿参数）、BLOO

梦玄海·2025-07-08 21:13

【TTS】2024-2025年主流开源TTS模型的综合对比分析

一、开源TTS模型对比（2024-2025年主流方案）模型名称开源/厂商克隆支持中文支持部署要求更新状态开源地址/时间核心优势Dia-1.6BNariLabs(开源)✅零样本声纹克隆❌仅英语GPU(A4000,40tokens

·2025-07-08 18:23

Error response from daemon: Get “https://registry-1.docker.io/v2/“: net/http

镜像拉取用了官方库，dockerpull一直超时，如果是桌面版到Settings->DockerEngine修改配置指定国内镜像加速源{"builder":{"gc":{"defaultKeepStorage

设计师Linda·2025-07-08 16:43

DeepSeek 部署中的常见问题及解决方案

环境配置问题硬件兼容性问题：GPU型号、驱动版本不匹配的解决方案。依赖库冲突：Python版本、CUDA/cuDNN不兼容的排查方法。虚拟环境配置：Anaconda或Docker环境的最佳实践。

tonngw·2025-07-08 16:42

【技术架构解析】国产化双复旦微FPGA+飞腾D2000核心板架构

随着国产化要求的加速以及国产处理器芯片的性能不断提升，主板均基本可实现全国产化方案。本方案设计之初主要面向高速网络通信场景，提供高带宽、低延迟的数据收发能力。采用飞腾D20008核处理

Future_Comtech·2025-07-08 15:37

NumPy：科学计算的超能引擎[特殊字符]（深入剖析+实战技巧）

Broadcasting）性能屠杀现场️高级技巧武装包️内存映射大文件爱因斯坦求和约定结构化数组真实世界应用场景图像处理机器学习数据预处理踩坑预警⚠️视图vs副本整数溢出性能压榨终极指南避免复制四法则终极加速方案你知道吗

码海漫游者8·2025-07-08 13:26

KingbaseES 到 Apache Doris 实时同步实践｜国产数据库数据入仓解决方案

国产数据库加速进入核心系统，传统同步工具却频频“掉链子”。

·2025-07-08 13:40

WordPress、Typecho 站点如何让 CloudFlare 缓存加速

众所周知WordPress、Typecho都是著名动态博客站点（一个最简单的判断依据就是都要依赖结合数据库），这类站点在CDN缓存上都有一个致命的缓存弊端就是动静态请求的区分，理论上要让CDN绕过所有的动态请求，缓存所有的静态请求，否则就会造成前端登录和非登录状态的混乱，影响用户浏览体验。其实静态网站和动态网站最重要的区别就是动态网站能够做到数据持久化，也就是能够把用户访问网站产生的数据存到数据库

明月登楼·2025-07-08 12:48

GNN--知识图谱（逐步贯通基础到项目实践）

原文仓库链接：知识图谱–贯通已有知识地图记录知识关系图谱和跨学科碰撞新启发知识图谱mermaid可能需要下载插件才能渲染线性代数神经网络深度学习框架硬件加速图论GNN框架交叉理解前向理解定义：前向理解：

峙峙峙·2025-07-08 11:41

ubuntu22.04从新系统到tensorflow GPU支持

ubuntu22.04CUDA从驱动到tensorflow安装0系统常规设置和软件安装0.1挂载第二硬盘默认Home0.2软件安装0.3安装指定版本的python0.4python虚拟环境设置1直接安装1.1配置信息1.2驱动安装1.3集显显示，独显运算（其它debug用）1.4卸载驱动(备用，未试)日常使用ssh后台运行（断联不中断）0系统常规设置和软件安装0.1挂载第二硬盘默认Homesudo

澍龑·2025-07-08 11:40

Ubuntu 22.04.5 LTS 安装Python 3.12 从源代码安装指南（2025年03月24日亲测）

(血的教训)设置系统Ubuntu镜像加速为了加快软件包的下载速度，我们可以将Ubuntu的软件源设置为华为镜像。

熊明才·2025-07-08 11:39

物联网技术的核心组件与发展趋势（截至2025年）

1.感知层：数据采集与交互传感器技术：类型：包括环境传感器（温度、湿度、光照）、运动传感器（加速度计、陀螺仪）、生物识别传感器（指纹、面部识别）、RFID标签等。

boyedu·2025-07-08 09:30

人工智能驱动下的可再生能源气象预测：构建绿色能源时代的新大脑

个人主页：一ge科研小菜鸡-CSDN博客期待您的关注一、背景：新能源快速发展下的预测焦虑为应对气候变化和实现碳中和目标，全球能源系统正在加速从“化石主导”向“可再生主导”过渡。

一ge科研小菜菜·2025-07-08 09:22

深度学习Pytorch(一)

深度学习Pytorch(一)前言：必须使用英伟达显卡才能使用cuda（显卡加速）！

Bgemini·2025-07-08 08:16

Boltz-2：革命性生物分子模型，加速药物发现的新引擎

如今，Boltz-2的诞生打破了这一瓶颈——这是首个开源的深度学习模型，其结合强度预测准确度接近FEP方法，却将速度提升了1000倍，成为药物早期筛选的“加速器”。

花生糖@·2025-07-08 07:42

一个小时快速部署大模型，附大模型书：ChatGLM3大模型本地化部署、应用开发与微调!

这个教程有以下几部分构成：硬件配置概念介绍实操测试结果1.硬件配置本文使用的方法配置要求低，没有gpu也可以正常使用(就是有点慢)，不管是windows还是linux，都可以无障碍使用大模型，有脚就行，

LLM教程·2025-07-08 07:05

量子计算+AI芯片：光子计算如何重构神经网络硬件生态

点击跳转到网站量子计算+AI芯片：光子计算如何重构神经网络硬件生态——2025年超异构计算架构下的万亿参数模型训练革命产业拐点：英伟达BlackwellUltra发布光互连版GPU，IBM量子处理器突破

·2025-07-08 06:59

【零基础学AI】第29讲：BERT模型实战 - 情感分析

接口使用情感分析任务的完整实现流程模型微调(Fine-tuning)技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtransformersdatasetspandastqdmGPU

1989·2025-07-08 05:54

Vulkan工厂论：高性能渲染架构的终极秘密

相比传统API"老式工厂"的单线程指挥模式，Vulkan让CPU(工头)和GPU(工人)协同更高效，消除等待时间，充分发挥硬件性能，实现极致渲染效率。

你一身傲骨怎能输·2025-07-08 04:47

使用 C++/Faiss 加速海量 MFCC 特征的相似性搜索

使用C++/Faiss加速海量MFCC特征的相似性搜索引言在现代音频处理应用中，例如大规模声纹识别(SpeakerRecognition)、音乐信息检索(MusicInformationRetrieval

whoarethenext·2025-07-08 04:17

【机器学习笔记 Ⅲ】4 特征选择

特征选择（FeatureSelection）系统指南特征选择是机器学习中优化模型性能的关键步骤，通过筛选最相关、信息量最大的特征，提高模型精度、降低过拟合风险并加速训练。

巴伦是只猫·2025-07-08 04:17

尝试安装使用无头cms strapi （未完成）

|Strapi中文网FreeBSD下使用strapi（未完成）安装npxcreate-strapi-app@latestmy-project--quickstart为了加快速度，可以加上淘宝的npm加速镜像

skywalk8163·2025-07-08 04:44

Postgresql快速同步大量数据方案浅析

行星008·2025-07-08 02:04

Charles中文版抓包工具：提升网络请求调试与API性能的高效工具

本文将深入探讨如何利用Charles中文版抓包工具加速网络请求调试、提升API性能，并通过有效的功能实现

·2025-07-08 01:20

如何在YashanDB中实现多级缓存策略

在此背景下，YashanDB作为一个云原生数据库，支持多级缓存策略，为数据访问提供了灵活的加速

·2025-07-07 22:26

推荐频道

GPU加速