E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
cuda(GPU
LLM 优化技术(4)——flash_attention 原理
FastandMemory-EfficientExactAttentionwithIO-Awareness如上图所示,Flash-attention采用了矩阵分块和算子融合(safesoftmaxreducetion)的方法,尽可能的减少内存的IO时间,最大化利用
GPU
哦豁灬
·
2025-04-05 22:37
大模型
LLM
深度学习
人工智能
深度学习
LLM
大模型
self-attention
深度学习主流经典框架PyTorch(day1)
PyTorch使用张量(tensor)来表示数据,可以轻松地处理大规模数据集,且可以在
GPU
上加速。
inquisitor.dom
·
2025-04-05 21:29
深度学习
pytorch
人工智能
第J9周:Inception v3算法实战与解析
文章目录一、前期准备1.设置
GPU
/CPU2.导入数据3.划分数据集二、搭建网络模型1.Inception-A3.Inception-C4.Reduction-A5.Reduction-B6.辅助分支7
计算机真好丸
·
2025-04-05 20:56
算法
# 教你计算模型训练时资源占用
然而,在使用BERT-Base模型时,显存(
GPU
内存)的占用问题常常成为开发者们需要面对的重要挑战。本文将深入探讨BERT-Base模型的显存占用来源,并提供一系列实用的
@MrLiu
·
2025-04-05 11:24
人工智能
自然语言处理
3dgs通俗讲解
特点:无深度学习简单的机器学习大量的CG知识复杂的线性代数对
GPU
的高性能编程一、什么是splatting1、选择“雪球”;为什么使用核(雪球)各向同性:在所有方向具有相同的扩散梯度(球);各向异性:在不同方向具有不同的扩散程度
whuzhang16
·
2025-04-05 10:18
3d
使用ollama部署本地大模型(没有
GPU
也可以),实现IDEA和VS Code的git commit自动生成
详情问豆包,提示词如下:收集下ollama相关信息,包括但不限于:官网地址/GitHub地址/文档地址官网地址https://ollama.com/GitHub地址https://github.com/ollama/ollama文档地址https://github.com/ollama/ollama/blob/main/docs/README.md安装https://ollama.com/down
阿杜杜不是阿木木
·
2025-04-05 09:13
Homelab
#
AI
intellij-idea
git
ai
ollama
vscode
linux
gather算子的
CUDA
编程和算子测试
知乎介绍参考添加链接描述完整测试框架参考本人仓库添加链接描述gather算子的onnx定义参考添加链接描述,该算子的主要变换参考下图:这里我们不妨以input=[A,dimsize,D],indices=[B,C],axis=1举例子,此时对应的output形状是[A,B,C,D],并且根据gather算子定义,我们知道output[i,j,k,s]=input[i,indices[j,k],s]
谨慎付费(看不懂试读博客不要订阅)
·
2025-04-05 04:42
高性能计算
CUDA
树莓派超全系列文档--(13)如何使用raspi-config工具其二
如何使用raspi-config工具其二`raspi-config`PerformanceoptionsOverclock
GPU
memoryOverlayfilesystemFanLocalisationoptionsLocaleTimezoneKeyboardWLANcountryAdvancedoptionsExpandfilesystemNetworkinterfacenamesNetwor
想躺在地上晒成地瓜干
·
2025-04-05 00:18
树莓派
linux
树莓派
物联网
raspistill command not found
(我使用的系统为命令行版本,无桌面)原因在最新的树莓派系统中已经从基于专有Broadcom
GPU
代码的传统相机
想躺在地上晒成地瓜干
·
2025-04-05 00:18
linux
DeepSeek本地部署全攻略
一、部署前准备(一)硬件需求
GPU
:DeepSeek对
GPU
性能有着较高要求,强烈推荐使用NVIDIA
GPU
,诸如
科目三次郎
·
2025-04-04 23:09
人工智能
python
linux
vscode
signature=e3020ad5caa17ee07f1f9c55b406f82e,yarn-error.log
Arguments:D:\ProgramFiles\nodejs\node.exeD:\ProgramFiles(x86)\Yarn\bin\yarn.jsPATH:C:\ProgramFiles\NVIDIA
GPU
ComputingToolkit
河马和荷花
·
2025-04-04 22:34
GPU
云服务器厂商综合评测与排名(2025年更新版)
本文从算力性能、行业适配性、性价比、生态支持及安全性五大维度,对国内主流
GPU
云服务器厂商进行多场景评测。
AI_CPU_GPU_Cloud
·
2025-04-04 21:22
GPU云服务器
gpu算力
如何在本地部署魔搭上千问Qwen2.5-VL-32B-Instruct-AWQ模型在显卡1上面运行推理,并开启api服务
问题描述:如何在本地部署魔搭上千问Qwen2.5-VL-32B-Instruct-AWQ模型在显卡1上面运行推理,并开启api服务解决方案:1.环境准备硬件要求显卡1(显存需≥48GB,推荐≥64GB)
CUDA
11.7
玩人工智能的辣条哥
·
2025-04-04 19:15
实操经验专题
Qwen2.5VL32B
推理
模型部署
AI大模型
通义千问
Rust 中的高效视频处理:利用硬件加速应对高分辨率视频
硬件加速技术通过利用
GPU
等专用硬件分担编解码任务,不仅能大幅提升处理效率,还能释放CPU资源,为用户带来更流畅的体验。
·
2025-04-04 19:05
rustffmpeg视频音频
【RAGFlow】ubuntu22部署ragflow(v0.17.2)
按照官方手册部署:https://ragflow.io/docs/v0.17.2/部署环境:CPU:4核memory:16g
GPU
:T4(v
GPU
)Disk:20g1.配置国内docker-ce源https
onlyellow
·
2025-04-04 18:35
AI
ai
10.YOLOV4
M江湖传闻最高的武功:嫁衣神功2.V4贡献:亲民政策,单
GPU
就能训练的非常好,接下来很多小模块都是这个出发点两大核心方法,从数据层面和网络设计层面来进行改善消融实验,感觉能做的都让他给做了,这工作量不轻全部实验都
sho_re
·
2025-04-04 14:06
数据挖掘
贤小二c#版Yolov5 yolov8 yolov10 yolov11自动标注工具 + 免python环境
GPU
一键训练包
贤小二c#版yolo标注训练工具集欢迎使用贤小二AI标注训练系统v2.0本课程所有演示程序全部免费1、这节课程主要演示贤小二AI标注训练系统的使用,以及标注数据时注意事项和技巧;2、本程序采用c#+Net8.0框架开发,是贤小二开发的一款Yolo标注和免环境训练的工具集,可以标注并一键生成anaconda训练脚本,可以直接免环境训练yolov5,yolov8,yolov10,yolov11等多个版
贤小二AI
·
2025-04-04 09:04
Yolov8s视觉检测模型
YOLO
深度学习
人工智能
利用 Python 与 DeepStream 构建视频流实时分析系统
而NVIDIADeepStream的出现,使得我们可以充分利用
GPU
的强大并行计算能力,对视频流进行高效的编解码和后续处理,大幅提升整体性能。
Lunar*
·
2025-04-04 03:26
python
视频编解码
一步步教你使用 NVIDIA 推出的全新
GPU
加速求解器 cuOpt:解锁超高效率的求解体验
文章目录1.什么是cuOpt2.基于
GPU
的求解器作为传统求解器的补充3.cuOptAPI详细使用教程3.1cuOpt求解“最后一英里配送”案例3.1.1WebGUI演示3.1.2基于API的Python
Lins号丹
·
2025-04-04 01:15
运筹优化求解器
cuOpt
常见各类处理器特点及区别对比
GPU
图形处理器,专为并行计算优化,处理大规模数据。众核架构(数千核心),高吞吐量。图形渲染、AI训练、科学计算。并行性
真相很简单
·
2025-04-03 23:59
物联网
人工智能
处理器
cpu
GPU
NPU
TPU
MMDetection3D的安装问题,报错缺失libtorch_
cuda
_cu.so文件
前言这个系列是记录我个人在学习过程中,遇到的一些问题,并记录我成功的方法,真实有效MMDetecion3D本身的安装文档非常不利好于新人,所以在此记录了我遇到的坑与解决办法使用平台i7-12700k4070tiubuntu20.04conda虚拟环境中,python=3.8遇到的问题根据官方文档操作,前面全部安装成功,包括MMDetction3D也显示安装成功,但是仍然在运行他给出的demo:py
V10LET_Yan
·
2025-04-03 22:51
BEVformer
python
ubuntu
计算机视觉
目标检测
机器学习
神经网络
深度学习
大模型——手把手教你在macos上部署Ragflow
部署首先我们去克隆代码gitclonehttps://github.com/infiniflow/ragflow.git我们在README文件中会看到下面一段描述,也就是官方是支持了x86CPU和Nvidia
GPU
不二人生
·
2025-04-03 18:00
大模型
macos
大模型
人工智能
ragflow
在PyTorch中使用
GPU
加速:从基础操作到模型部署
本文将通过具体代码示例,详细介绍如何在PyTorch中利用
GPU
进行张量计算和模型训练,包含设备查询、数据迁移以及模型部署等完整流程。
意.远
·
2025-04-03 17:52
pytorch
人工智能
python
深度学习
Gpu
Geek平台新玩法上线啦!竞价实例来袭,AI算法工程师们快来围观
Gpu
Geek平台近日上线了新功能——竞价实例!这些可不是普通的实例哦,它们是那些“闲置待命”的超级实例,性能跟常规的
GPU
实例一样强大,但价格却像坐过山车一样刺激,最高能帮你省下70%的成本!
·
2025-04-03 14:07
gpu云平台人工智能算法
NVIDIA A100加速引擎核心技术解析
其技术革新围绕三大核心维度展开:第三代张量核心通过结构化稀疏支持与TF32精度扩展,显著提升矩阵运算效率;多实例
GPU
(MIG)技术通过硬件级资源分区,实现单卡多任务并行处理能力;NVLink3.0互连方案则将带宽提升至
智能计算研究中心
·
2025-04-03 13:25
其他
H100突破生成式AI性能边界
内容概要NVIDIAH100
GPU
的发布标志着生成式人工智能算力进入全新阶段。基于Hopper架构的设计革新,该硬件在动态精度计算、并行处理能力及能效比方面实现突破性进展。
智能计算研究中心
·
2025-04-03 13:25
其他
Grok 3 炸场:马斯克的“地球最聪明 AI”来了![特殊字符]
10万块
GPU
的“算力狂欢”先说说G
埼玉君
·
2025-04-03 11:47
人工智能
AI
grok
DeepSeek
AI大模型
【弹性计算】异构计算云服务和 AI 加速器(四):FPGA 虚拟化技术
《异构计算云服务和AI加速器》系列,共包含以下文章:异构计算云服务和AI加速器(一):功能特点异构计算云服务和AI加速器(二):适用场景异构计算云服务和AI加速器(三):
GPU
虚拟化技术异构计算云服务和
G皮T
·
2025-04-03 11:46
#
云计算
FPGA
虚拟化
异构计算
弹性计算
云计算
fpga开发
阿里云
Rust 中的高效视频处理:利用硬件加速应对高分辨率视频
硬件加速技术通过利用
GPU
等专用硬件分担编解码任务,不仅能大幅提升处理效率,还能释放CPU资源,为用户带来更流畅的体验。
Yeauty
·
2025-04-03 09:31
rust
音视频
开发语言
ffmpeg
视频
音频
RWKV state tuning 微调教程
开始之前,请确保你拥有一个Linux工作区,以及支持
CUDA
的NV
RWKV元始智能
·
2025-04-03 07:15
人工智能
语言模型
PyTorch 核心详解
Autograd)基本用法禁用梯度跟踪4.神经网络模块(nn.Module)定义模型常用层5.数据加载与预处理自定义数据集数据增强6.模型训练与验证训练流程验证流程7.模型保存与加载保存模型参数(推荐)加载模型8.
GPU
Code_Geo
·
2025-04-03 00:58
pytorch
人工智能
python
nvidia 各
GPU
架构匹配的
CUDA
arch 和
CUDA
gencode
使用NVCC进行编译
cuda
c(.cu)时,arch标志(-arch)指定了
CUDA
文件将为其编译的NVIDIA
GPU
架构的名称。
哦豁灬
·
2025-04-02 20:33
CUDA
GPU
CUDA
nvidia
结构化剪枝(Structured Pruning)与动态蒸馏(Dynamic Distillation)
其优势在于:硬件友好性:生成规则稀疏模式(如4×4权重块),便于
GPU
/TPU等加速器并行计算。块状结构定义:首先将神经网络的权重矩阵划分为固定大小的块,例如4×4的小方块。每个块包含16个权重参数。
frostmelody
·
2025-04-02 19:53
PyTorch小知识点
LLM小知识点
深度学习小知识点
剪枝
深度学习
pytorch
Ubuntu16.04+Anaconda+
Cuda
9.0+cudnn7.0+Tensorflow+Pytorch 深度学习环境配置
Ubuntu16.04+Anaconda+
Cuda
9.0+cudnn7.0+Tensorflow+PytorchUbuntu16.04(win10双系统)下载下载地址:https://www.ubuntu.com
yangtf07
·
2025-04-02 12:37
深度学习环境搭建
ubuntu
cuda
cudnn
tensorflow
pytorch
Pytorch 张量操作
张量是一个多维数组,类似于NumPy的数组,但具有更强大的功能,尤其是在
GPU
上进行高效计算。本文将深入探讨PyTorch中的张量操作,包括创建张量、维度操作、索引与切片、数学运算等。
niuguangshuo
·
2025-04-02 11:35
张量
pytorch
Conda虚拟环境中
CUDA
、cudnn、pytorch安装
层级结构:|cudnn||
CUDA
=DRIVER驱动+动态链接库||显卡驱动||显卡|一个电脑只需要装一个完整的
CUDA
(即DRIVER+动态链接库)。
m0_62118546
·
2025-04-02 11:04
conda
pytorch
人工智能
轻松上手:
CUDA
11.4、cuDNN 与 Pytorch 一站式安装指南
轻松上手:
CUDA
11.4、cuDNN与Pytorch一站式安装指南
CUDA
11.4CUDNNPytorch安装项目地址:https://gitcode.com/Resource-Bundle-Collection
松南友Trina
·
2025-04-02 11:33
【LLM】Llama Factory:Windows部署全流程
一、部署原理与流程概述(一)核心逻辑本教程基于"环境隔离-硬件适配-框架集成"三层架构设计,通过创建独立Python环境保障系统稳定性,结合
GPU
硬件加速提升计算效率,最终实现LlamaFactory框架的完整功能调用
T0uken
·
2025-04-02 09:49
llama
人工智能
pytorch
深度学习
ComplexE的代码注释
还不想配电脑,又不会用
GPU
服务器。哭死哭死。心态崩了。直接发吧。
水深00安东尼
·
2025-04-02 07:06
知识图谱补全
知识图谱
print(torch.
cuda
.is_available())输出为False
print(torch.
cuda
.is_available())输出为False此时已根据自己需要的版本安装好
CUDA
、pytorch、CuDNN等。
筱文rr
·
2025-04-02 06:29
深度学习
python
深度学习
pytorch
CUDA
专题8—
CUDA
L2缓存完全指南:从持久化策略到性能优化实战
1.设备内存L2缓存访问管理当
CUDA
内核反复访问全局内存中的某个数据区域时,此类数据访问可视为持久化(persisting)访问。反之,若数据仅被访问一次,则可视为流式(streaming)访问。
AI专题精讲
·
2025-04-02 04:17
CUDA
C++编程系列专题
gpu算力
DeepSeek-R1模型不同参数规模(1.5B、7B、8B、14B、32B、70B、671B)之间的区别
以下是具体区别和选择建议:1.核心区别:参数量与模型能力参数规模能力范围典型应用场景硬件需求1.5B轻量级任务(文本生成、简单问答)移动端/嵌入式设备、低资源环境CPU或低端
GPU
(如RTX3060)7B
Remember_Ray
·
2025-04-02 03:38
DeepSeek
常见的人工智能学习框架以及特点、应用场景
支持分布式计算,可以使用多个
GPU
和TPU进行训练。提供了TensorBoard用于可视化训练过程和模型性能。应用场景:图像识别、自然语言处理(NLP)、生成模型等
2020314
·
2025-04-02 03:31
人工智能
学习
CUDA
的L2缓存
理解当一个
cuda
kernel重复的获取一个globalmemory数据的时候,可以认为这种数据访问是持久的。如果一个数据只访问一次,那么这个数据被认为"过客"。
s.feng
·
2025-04-01 23:31
CUDA编程
缓存
注册成为
GPU
提供者全攻略:系统、申请与操作指南
目录一、成为
GPU
提供者的系统要求(一)硬件“基石”:显示处理器是关键(二)软件“支柱”:多软件协同构建运行环境二、注册申请流程:清晰步骤指引(一)了解硬件,更新软件(二)认真填写用户申请表(三)提交申请等待审核三
Muyu881
·
2025-04-01 22:24
NeuronForge
人工智能
算法
算力出租
深度学习
机器学习: LightGBM模型(优化版)——高效且强大的树形模型
它具有高效的训练速度、低内存占用、支持并行和
GPU
加速等特点,非常适合大规模数据的训练任务,尤其在分类和回归任务中表现突出。
秀儿还能再秀
·
2025-04-01 21:15
机器学习
决策树
LightBMG
GBDT
PyTorch + torchvision是什么
PyTorch是一个开源的深度学习框架,由FacebookAI开发,它的特点是:易用性强:Python风格代码,好写好调试动态图机制:代码运行即图构建,更灵活支持
GPU
:训练快,效率高社区活跃:资料多,
太阳照常升起--
·
2025-04-01 20:11
pytorch
人工智能
python
电脑也能玩PS4大作?shadPS4模拟器来了
由于PS4的硬件架构(基于x86-64的AMDJaguarCPU和GCN
GPU
)与PC相似,ShadPS4的开发相对其他模拟器(如ARM架构的Android设备)更具可行性。
开源项目精选
·
2025-04-01 18:53
智能手机
亲测超简单pytorch3D安装教程!!!(已解决)
不需要花里胡哨各种麻烦,只确认好你需要的pytorch3d版本,你环境的python、
cuda
、pytorch版本,去官网下载对应的安装包https://anaconda.org/pytorch3d/pytorch3d
小秋今天也要加油吖
·
2025-04-01 18:22
pytorch
人工智能
python
NVIDIA A100能效跃迁与架构精解
SM多实例化技术将单个流式多处理器动态分割为7个独立实例,在云原生环境中实现
GPU
资源利用率从65%到95%的跃升。配合带宽达1.6TB/s的HB
智能计算研究中心
·
2025-04-01 18:51
其他
上一页
21
22
23
24
25
26
27
28
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他