E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
FP16
英伟达靠什么支撑起了4万亿?AI泡沫还能撑多久?
⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势:英伟达GPU在AI训练市场占有率超87%,H100芯片的
FP16
算力达1979TFLOPS,领先竞品3-5倍。
·
2025-07-30 00:21
模型压缩中的四大核心技术 —— 量化、剪枝、知识蒸馏和二值化
一、量化(Quantization)量化的目标在于将原始以32位浮点数表示的模型参数和中间激活,转换为低精度(如
FP16
、INT8、甚至更低位宽)的数值表示,从而在减少模型存储占用和内存带宽的同时,加速推理运算
由数入道
·
2025-07-29 14:14
人工智能
剪枝
人工智能
算法
模型压缩
量化
知识蒸馏
二值化
Pytorch混合精度训练最佳实践
混合精度训练(MixedPrecisionTraining)是一种通过结合单精度(FP32)和半精度(
FP16
/FP8)计算来加速训练、减少显存占用的技术。
贝塔西塔
·
2025-07-27 04:00
工程经验
pytorch
人工智能
深度学习
混合精度
模型加速
详解BFLOAT16精度,和fp32和
fp16
的优缺点和异同
它在指数部分保留了与FP32相同的8位,但在尾数digits部分只保留了7位,而不是
FP16
的10位。这种设计使得BFLOAT16在数值范围上与FP32相似,但精度较低,约为小数点后2位。
强化学习曾小健
·
2025-07-24 21:31
大模型LLM面试指南
多模态MLLM大模型面试指南
深度学习
人工智能
具身智能
语言模型
AI周报:技术面试卷出新高度,Agent落地开启“工具觉醒”时代
一句话暴论:当面试官要求手搓
FP16
精度时,真正的考题是“你能否在硅基文明觉醒前跟上进化速度”。
哪小吒圈子
·
2025-07-23 10:48
人工智能
语言模型
深度学习分布式训练:并行策略与通信机制的系统性分析
以GPT-3为例,其1750亿参数在
FP16
精度下需要约350GB存储空间(每个参数2字节),远超当前主流GPU的显存容量(如NVIDIAA100的80GB)。
Takoony
·
2025-07-22 12:53
深度学习
分布式
人工智能
大模型部署的整体架构
1.1.1、基础架构层:硬件资源与网络算力集群GPU/NPU阵列:如NVIDIAA100/H100/H200/H800、华为昇腾、昆仑芯等,支持
FP16
/INT8量化计算,显存带宽需达TB级(如HBM3e
flyair_China
·
2025-07-22 04:25
人工智能
云计算
架构
大模型日报10月21日
资讯篇资讯01清华开源混合精度推理系统MixQ量化权重与激活:MixQ同时量化权重和激活,使用INT8/INT4张量核心进行推理加速,并通过
FP16
张量核心处理少量激活中的离群值,既保持精度又提升吞吐量
大模型空间站
·
2025-07-21 22:15
人工智能
LLaMA 学习笔记
激活函数旋转位置编码(RoPE)LLaMA模型结构:llama3结构详解-CSDN博客模型微调手册:大模型微调LLaMA详细指南(准备环境、数据、配置微调参数+微调过程)_llama微调-CSDN博客显存占用:
FP16
AI算法网奇
·
2025-07-12 06:41
深度学习基础
人工智能
深度学习
Transformer推理性能优化技术很重要的一个就是K V cache,能否通俗分析,可以结合代码?
设输入序列的长度为s,输出序列的长度为n,模型深度为l,维度为h,以
FP16
来保存KVcache,那么KVcache的峰值显存占用大小为b(s+n)h∗l∗2∗2=4blh(s+n)。
javastart
·
2025-07-11 15:28
aigc
大模型
人工智能
transformer
AIGC
性能优化
YOLOv11模型轻量化挑战技术文章大纲
精度与速度的权衡、模型压缩方法的选择YOLOv11的轻量化技术方向网络结构优化:深度可分离卷积、分组卷积、瓶颈设计模型剪枝:结构化剪枝与非结构化剪枝策略知识蒸馏:教师-学生模型框架与特征匹配方法量化与低比特压缩:
FP16
程序猿全栈の董(董翔)
·
2025-07-11 03:40
github
YOLOv11
机器学习中为什么要用混合精度训练
目录
FP16
与显存占用关系机器学习中一般使用混合精度训练:
FP16
计算+FP32存储关键变量。
FP16
与显存占用关系显存(VideoRAM,简称VRAM)是显卡(GPU)专用的内存。
十子木
·
2025-07-03 01:39
机器学习
机器学习
人工智能
FP16
、BF16、INT8、INT4精度模型加载所需显存以及硬件适配的分析
本文主要介绍了
FP16
、INT8、INT4精度模型加载占用显存大小的分析,希望对学习大
herosunly
·
2025-07-02 05:47
大模型
精度
BF16
硬件适配
AI算力综述和资料整理
FP16
在训练计算力占比有80-90%,FP32占比10%-20%。大模型训练中通常会用到
FP16
(半精度浮点数),但并不是只使用
FP16
,而是采用**混合精度
木鱼时刻
·
2025-06-29 15:48
人工智能
从7B到671B:DeepSeek R1大模型微调的GPU选型终极指南
以
FP16
精度计算,7B模型微调需要至少14GB显存(含优化器状态),而671B版本则需要惊人的3TB级存储空间。
卓普云
·
2025-06-24 17:54
教程
运维
服务器
gpu算力
DeepSeek
DeepSpeed 深度学习学习笔记:高效训练大型模型
再到现在的万亿参数模型),传统的单GPU训练方式变得力不从心,即使是多GPU训练也面临巨大挑战:内存限制(MemoryWall):模型参数:模型的参数量巨大,例如一个1750亿参数的GPT-3模型,即使使用
FP16
·
2025-06-22 14:16
人工智能混合编程实践:Python ONNX
FP16
加速进行图像超分重建
人工智能混合编程实践:PythonONNXFP16加速进行图像超分重建前言相关介绍Python简介ONNX简介图像超分辨率重建简介应用场景前提条件实验环境项目结构使用PythonONNXFP16加速进行图像超分重建sr_py_infer_fp16.py参考文献前言由于本人水平有限,难免出现错漏,敬请批评改正。更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、
FriendshipT
·
2025-06-20 22:32
人工智能混合编程实践
人工智能
python
开发语言
超分辨率重建
FP16
onnx
FP16
混合精度在移动端 NPU 上的支持与性能压榨路径:架构差异 × 模型兼容 × 工程落地全解析
FP16
混合精度在移动端NPU上的支持与性能压榨路径:架构差异×模型兼容×工程落地全解析关键词
FP16
、混合精度、移动端NPU、国产芯片、TensorFlowLite、NNAPI、模型压缩、图优化、精度漂移
观熵
·
2025-06-19 02:22
国产
NPU
×
Android
推理优化
架构
neo4j
人工智能
DeepSeek满血版本地部署指南
显存估算:模型参数每10B约需~20GB显存(
FP16
精度)。CPU/RAM:CPU:建议≥8核(如Inteli7/i9或AMDRyzen7/9)。内存:≥32GB(若使用CPU卸载需≥64GB)。
三三十二
·
2025-06-12 18:42
deepseek
【大模型】大模型分布式训练问题(上)
这些权重文件大多采用半精度浮点(
FP16
)格式存储,每个参数占用2字节,因此理论上“Xb”级模型的权重体积约为2×XGB。实际文件大小会略高于理论值,因为还包含一些元数据、分片索引和兼容性信息。
油泼辣子多加
·
2025-06-09 16:59
大模型实战
分布式
人工智能
深度学习
边缘AI推理突破:树莓派5运行Llama3-13B的异构计算极致优化指南
边缘大语言模型推理的挑战在边缘计算设备上部署13B参数级大语言模型(LLM)面临三重挑战:算力瓶颈:ARMCortex-A76CPU峰值算力仅0.5TFLOPS,远低于GPU服务器内存墙限制:8GBLPDDR4X内存难以容纳原始
FP16
尘烬海
·
2025-06-09 00:38
人工智能
分布式
risc-v
网络
架构
BF16 和
FP16
,FP32区别以及转换方法
BF16、
FP16
和FP32的介绍与区别1.FP32(单精度浮点数)结构:32位(1符号位,8指数位,23尾数位)。动态范围:指数范围约为10^-38到10^38(偏移127)。
telllong
·
2025-06-04 04:58
深度学习
算法
python
人工智能
一次讲清 FP32 /
FP16
/ BF16 / INT8 / INT4
一次讲清 FP32/
FP16
/BF16/ INT8/ INT4目标:让你3 分钟读懂格式原理,5 分钟学会选型。只记一句:“指数定范围,尾数定精度;位宽定显存,硬件定成本”。
pumpkin84514
·
2025-05-14 20:41
AI相关学习
ai
大模型中常见的精度类型及区别
以下是主要精度类型的总结及其区别,重点对比BF16与
FP16
的差异:一、大模型中常见的精度类型及区别精度类型符号位指数位尾数位总位数特点与应用场景FP32(单精度)182332高精度计算,适用于模型训练初期
为啥全要学
·
2025-05-10 22:49
python
深度学习
人工智能
深度学习
算法
模型量化:8-bit/4-bit 量化、PTQ 与 QAT+案例
量化的主要目标是用更低的精度(如INT8或
FP16
)来表示模型权重和激活值,从而加速推理并降低存储需求。
奥德彪123
·
2025-05-10 04:53
嵌入式AI
ai
深度学习
边缘计算
NVIDIA H100 vs A100:新一代GPU架构性能对比分析
一、核心架构演进对比Ampere架构(A100)采用台积电7nm工艺,集成540亿晶体管,配备6,912个CUDA核心和432个第三代TensorCore,支持
FP16
、TF32和INT8精度计算。
学术猿之吻
·
2025-05-02 12:37
高校
GPU
人工智能
架构
分布式
pytorch
人工智能
深度学习
python
ai
AI大模型基础设施:NVIDIA的用于AI大语言模型训练和推理的几款主流显卡
1.NVIDIAH100架构:Hopper(2022年发布)关键规格:
FP16
计算性能:高达1513TFLOPS(半精度浮
InnoLink_1024
·
2025-05-01 23:39
人工智能
芯片
GPU
人工智能
语言模型
gpu算力
基于人工智能的智能健身评分系统方案
以下是智能健身评分系统的技术方案设计,涵盖人体关键点识别、动作识别与评分计数功能,可应用于智能硬件、健身APP或在线课程平台:一、系统架构设计二、核心技术选型1.人体关键点检测算法选择:PP-TinyPose:百度飞桨轻量化模型,
FP16
编码追梦人
·
2025-04-30 23:06
AI人工智能
人工智能
python
大模型(LLMs)加速篇
算法层面:蒸馏、量化软件层面:计算图优化、模型编译硬件层面:FP8(NVIDIAH系列GPU开始支持FP8,兼有
fp16
的稳定性和int8的速度)推理加速框架有哪一些?都有什么特点?
AI Echoes
·
2025-04-29 17:59
python
人工智能
机器学习
算法
面试
基于 EFISH-SBC-RK3588 的无人机环境感知与数据采集方案
NPU加速:6TOPS独立NPU(支持INT8/
FP16
混合运算),可直接部署YOLOv5、ResNet50等模型,实时处理激光雷达点云、多光谱图像等
电鱼智能
·
2025-04-27 16:13
3588
无人机
数码相机
嵌入式硬件
linux
边缘计算
网络
基于 RK3588 + 双天线差分 GNSS + RTK 的自主可控技术平台
内置Mali-G610GPU(兼容OpenGLES3.2/Vulkan1.2)与6TOPSNPU(支持INT8/
FP16
混合运算),可实时处理复杂算法与多传感器数据融合。应用场景
电鱼智能
·
2025-04-27 05:56
3588
机器人
嵌入式硬件
linux
边缘计算
网络
看看KIMI怎么说-沐曦C500计算卡是什么样的水平?
计算卡是沐曦公司推出的一款高性能国产GPU,具有较高的性能和诸多优势,以下是其具体介绍:性能参数算力:PCIe版本FP32矢量算力15TFLOPS、矩阵算力30TFLOPS,TF32算力120TFLOPS,
FP16
释迦呼呼
·
2025-04-26 18:48
AI一千问
人工智能
大数据
机器学习
深度学习
第五十八个问题-沐曦C500计算卡是什么样的水平?
以下从性能参数、技术特点、应用场景及行业地位等方面综合分析其水平:1.性能参数算力表现曦云C500具备多精度混合算力,FP32(矩阵运算)算力达36TFLOPS(OAM版本),
FP16
/BF16算力为280TFLOPS
释迦呼呼
·
2025-04-25 22:33
AI一千问
人工智能
深度学习
机器学习
算法
看看Grok3怎么回答-沐曦C500计算卡是什么样的水平?
其PCIe版本在FP32、TF32、
FP16
和INT8等指标上约为NVID
释迦呼呼
·
2025-04-25 22:33
AI一千问
人工智能
深度学习
机器学习
算法
pytorch 51 GroundingDINO模型导出tensorrt并使用c++进行部署,53ms一张图
本专栏博客第49篇文章分享了将GroundingDINO模型导出onnx并使用c++进行部署,并尝试将onnx模型转换为trt模型,
fp16
进行推理,可以发现推理速度提升了一倍。
万里鹏程转瞬至
·
2025-04-19 21:32
pytorch工程实践
pytorch
c++
人工智能
BERT轻量化探索—模型剪枝(BERT Pruning)—Rasa维度剪枝
在模型训练和推理中使用低精度(
FP16
甚至INT8、二值网络)表示取代原有精度(FP32)表示。模型裁剪和剪枝。减少模型层数和参数规模。模型蒸馏。
PaperAgent
·
2025-04-04 23:11
9
NLP
bert
轻量化
pruning
rasa
剪枝
香橙派 AIPro开发板上手测评
一、硬件配置CPU:配备了4核64位ARM处理器,其中默认预留1个给AI处理器使用NPU:集成了华为昇腾310BAI处理器,拥有4TFOPS的
FP16
算力核8TOPS的INT8算力内存:标配LPDDR4X
洛克希德马丁
·
2025-04-01 14:00
linux
ubuntu
AI
ubuntu
linux
香橙派
香橙派
AiPro
OrangePi
AiPro
H800加速引擎与能效突破
值得注意的是,其混合精度计算单元通过灵活配置
FP16
、INT8及BF16精度模式,显著降低了大规模模型训练中的资源开销,而分布式缓存设计则通过数据局部性优化,减少了跨节点通信带来的延迟与能
智能计算研究中心
·
2025-04-01 13:50
其他
DeepSeek集成IT技术开发方向全景解读:重构智能开发新范式
DeepSeekMoE-32B)通过混合专家系统实现精准任务路由,在软件开发场景中展现出显著优势:代码生成场景:激活Java/Python/C++等语言专家模块,单元测试覆盖率提升至85%硬件资源优化:
FP16
量子纠缠BUG
·
2025-03-29 00:33
DeepSeek部署
DeepSeek
AI
重构
人工智能
机器学习
Google开源机器学习框架TensorFlow SegFormer优化
1.TensorRT加速流程目标转换SegFormer为TensorRT格式优化
FP16
/INT8计算提升推理速度(FPS)主要步骤导出TensorFlow模型转换为ONNX格式使用TensorRT进行优化运行
深海水
·
2025-03-28 02:23
人工智能
行业发展
IT应用探讨
tensorflow
人工智能
python
机器训练
机器学习
深度学习
ai
V100加速引擎与效能突破
其核心架构创新可归纳为三个维度:首先,TensorCore引入稀疏化计算与动态张量切片技术,显著提升矩阵运算密度;其次,混合精度计算通过
FP16
/FP32自适应精度调度算法,在模型收敛性与计算效率间达成平衡
智能计算研究中心
·
2025-03-27 02:23
其他
深度学习模型性能全景评估与优化指南
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持
FP16
niuTaylor
·
2025-03-22 02:49
深度学习
人工智能
深入解析 DeepSeek-R1 模型的显存与内存需求
模型参数与量化精度的关系模型的参数量决定了其基础大小,而量化精度(如
FP16
、INT8、INT4)则影响每个参数所占用的存储空间。
gs80140
·
2025-03-21 06:24
基础知识科谱
deepseek
最新NPU芯片详解及应用场景
技术亮点:支持混合精度计算(
FP16
/INT8),动态分配
美好的事情总会发生
·
2025-03-18 18:10
AI
嵌入式硬件
硬件工程
linux
人工智能
ai
【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型
量化能将模型权重从高精度(如FP32)转换为低精度(如INT8/
FP16
),内存占用可减少50%~75%。低精度运算(如INT8)在GPU等硬件上计算效率更高,推理速度可提升2~4倍。
源泉的小广场
·
2025-03-17 21:19
大模型
大模型量化
推理模型量化
量化
qwq32b
gptq量化
大模型推理
性能调优
pytorch 天花板级别的知识点 你可以不会用 但是不能不知道
以下是PyTorch的高级知识点,详细且全面:1.模型优化与加速1.1混合精度训练定义:使用半精度(
FP16
)和单精度(FP32)混合训练,减少内存占用并加速计算。
小赖同学啊
·
2025-03-17 21:17
人工智能
pytorch
人工智能
python
模型量化 (Model Quantization) 算法 (Model Quantization Algorithms)
其核心思想是将模型中的浮点数(通常是FP32或
FP16
)表示的权重和激活值转换为低精度整数(
(initial)
·
2025-03-15 13:24
大模型科普
算法
人工智能
量化
Stable Diffusion模型Pony系列模型深度解析
训练策略:采用混合精度训练(
fp16
/bf16)和分层权重调整技术
Liudef06
·
2025-03-06 15:44
Stable
Diffusion
人工智能
人工智能作画
stable
diffusion
AI作画
大模型训练内存预估计算方法
基础计算(以训练为例)假设使用
FP16
(16位浮点数)存储参数:每个参数占用2字节。671B参数总显存≈6710亿×2字节≈1,342GB实际训练时需额外存储梯度、优化器
junjunzai123
·
2025-03-05 13:29
人工智能
深度学习
机器学习
fp8、
fp16
和bp16的区别
文章目录1.FP8(8-bitFloatingPoint)2.FP16(16-bitFloatingPoint)3.BP16(BrainFloatingPoint)4.总结FP8、
FP16
和BP16是指不同精度的浮点数格式
SmallerFL
·
2025-03-02 16:10
NLP&机器学习
fp8
fp16
bp16
深度学习
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他