E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
蒸馏
模型压缩中的四大核心技术 —— 量化、剪枝、知识
蒸馏
和二值化
一、量化(Quantization)量化的目标在于将原始以32位浮点数表示的模型参数和中间激活,转换为低精度(如FP16、INT8、甚至更低位宽)的数值表示,从而在减少模型存储占用和内存带宽的同时,加速推理运算,特别适用于移动、嵌入式和边缘计算场景。1.1概念与目标基本思想将高精度数值离散化为低精度表示。例如,将FP32权重转换为INT8,可降低内存需求约4倍,同时在支持低精度运算的硬件上加速计算
由数入道
·
2025-07-29 14:14
人工智能
剪枝
人工智能
算法
模型压缩
量化
知识蒸馏
二值化
大模型基础知识(万字详解)
在数学上,deepseek多轮自
蒸馏
可以理解为对学生模型施加一系列滚动KL散度约束:LMSD=∑i=1nαi⋅KL(pTi(x)∥pSi(x))\mathcal{L}_{MSD}=\sum_{i=1}^
掘金安东尼
·
2025-07-28 23:17
python
机器学习
人工智能
棉田霉斑病难识别?陌讯跨季节检测方案误判率直降58%!
技术解析:多模态融合与自
蒸馏
架构陌讯视觉算法创新性地采用双流特征金字塔+自
蒸馏
机制解决上述问题:#核心代码片段(特征融合模块)classMu
2501_92474779
·
2025-07-28 18:40
人工智能
算法
目标跟踪
计算机视觉
机器学习
基于大模型的短暂性脑缺血发作(TIA)全流程预测与干预系统技术方案
目录一、系统架构总览二、核心模块详细设计三、系统集成方案四、系统部署拓扑图五、技术验证方案六、健康管理子系统七、安全与合规设计技术指标与性能保障八、HL7FHIR接口规范九、分层
蒸馏
方案十、多中心RCT
LCG元
·
2025-07-28 08:30
大模型医疗研究-技术方向
技术方案
机器学习
深度学习
人工智能
酿酒工艺:酿酒发酵,多长时间可以蒸酒?
在接受了解酿酒设备的咨询中,朋友们问得多的问题之一就是:用你们的白酒酿酒设备和酿酒酒曲发酵,多长时间可以
蒸馏
?
转角遇见酒
·
2025-07-27 06:33
VideoPrism模型论文速读:一种用于视频理解的基础视觉编码器
预训练方法在掩码自动编码基础上进行了改进,通过全局-局部
蒸馏
语义视频嵌入和令牌洗牌方案,使Vi
·
2025-07-24 04:40
模型优化-------模型压缩
其中,“剪枝(Pruning)、量化(Quantization)和知识
蒸馏
(KnowledgeDistillation)”是最常用且研究最深入的三种方法。
AI扶我青云志
·
2025-07-24 00:16
人工智能
模型优化
【论文
蒸馏
】Recent Advances in Speech Language Models: A Survey
AbstractLLM蓬勃发展,但从交互的自然性上看语音大模型(SpeechLM)有巨大的发展空间。直接的方法是ASR(语音转文字)+LLM+TTS(文字转语音),但是这样有其固有的限制,而端到端的SpeechLM表现更好,本文及其方法论做了一个概览的综述1.Introduction大语言模型提供了强大的AI基础支架,在其它领域有着广泛应用。但交互上不自然,所以需要声学大模型。一种直接的实现方式是
Greener_Pat
·
2025-07-23 19:45
论文蒸馏
语言模型
人工智能
AudioLM
LiteCoT:难度感知的推理链压缩与高效
蒸馏
框架
“以智能裁剪对抗冗余,让推理效率与精度兼得”LiteCoT是由香港科技大学(广州)联合独立研究者团队提出的创新方法,旨在解决大模型知识
蒸馏
中推理链过度冗长和缺乏难度适应性的核心问题。
大千AI助手
·
2025-07-22 18:33
人工智能
#
Prompt
#
OTHER
深度学习
人工智能
机器学习
自然语言处理
提示词
LiteCoT
思维链
5万人流挤地铁如何追踪?陌讯算法实战FPS飙升300%
技术解析:动态多目标
蒸馏
网络陌讯视觉算法创新性融合多任务
蒸馏
架构与时空注意力机制,攻克复杂场景泛化难题。核心公式创
·
2025-07-21 18:50
极限挑战:用知识
蒸馏
压缩模型,实时推荐系统在50ms内完成推荐
极限挑战:用知识
蒸馏
压缩模型,实时推荐系统在50ms内完成推荐标题极限挑战:用知识
蒸馏
压缩模型,实时推荐系统在50ms内完成推荐TagAI,知识
蒸馏
,实时推荐,模型压缩,技术挑战,高性能描述面对实时推荐系统必须在
·
2025-07-20 00:19
知识
蒸馏
:模型压缩与知识迁移的核心引擎
从软目标迁移到无数据合成的轻量化革命一、核心定义与技术价值知识
蒸馏
(KnowledgeDistillation,KD)是一种通过迁移大型教师模型(Teacher)的知识至小型学生模型(Student)的模型压缩技术
大千AI助手
·
2025-07-20 00:14
人工智能
Python
#
OTHER
transformer
人工智能
神经网络
深度学习
知识蒸馏
KD
蒸馏
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal
中文译名:逐步
蒸馏
!
0x211
·
2025-07-12 10:38
论文阅读
语言模型
人工智能
自然语言处理
YOLOv11模型轻量化挑战技术文章大纲
、实时性需求、计算资源限制轻量化面临的挑战:精度与速度的权衡、模型压缩方法的选择YOLOv11的轻量化技术方向网络结构优化:深度可分离卷积、分组卷积、瓶颈设计模型剪枝:结构化剪枝与非结构化剪枝策略知识
蒸馏
程序猿全栈の董(董翔)
·
2025-07-11 03:40
github
YOLOv11
【论文阅读】Decoupled Knowledge Distillation
摘要:最先进的
蒸馏
方法主要基于从中间层
蒸馏
出深层特征,而logit
蒸馏
的重要性则被大大忽视了。
Bosenya12
·
2025-07-10 22:38
论文阅读
计算机视觉:Transformer的轻量化与加速策略
2.1Transformer架构概述2.2自注意力机制原理三、Transformer轻量化策略3.1模型结构优化3.1.1减少层数和头数3.1.2优化Patch大小3.2参数共享与剪枝3.2.1参数共享3.2.2剪枝3.3知识
蒸馏
四
xcLeigh
·
2025-07-10 00:44
计算机视觉CV
计算机视觉
transformer
人工智能
AI
策略
AI人工智能助力联邦学习通信效率优化的解决方案
、通信优化(CommunicationEfficiency)、AI赋能(AI-Enabled)、参数压缩(ParameterCompression)、客户端选择(ClientSelection)、联邦
蒸馏
AI智能应用
·
2025-07-08 09:52
人工智能
ai
【图像超分】论文精读:MTKD: Multi-Teacher Knowledge Distillation for Image Super-Resolution
论文代码数据集汇总等)前言论文题目:MTKD:Multi-TeacherKnowledgeDistillationforImageSuper-Resolution——MTKD:图像超分辨率的多教师知识
蒸馏
论文
十小大
·
2025-07-04 13:28
超分辨率重建(理论+实战
科研+应用)
深度学习
人工智能
图像处理
计算机视觉
超分辨率重建
论文阅读
论文笔记
嵌入式AI模型压缩技术:让大模型变小
嵌入式AI模型压缩技术:让大模型变小关键词:嵌入式AI、模型压缩、剪枝、量化、知识
蒸馏
、轻量化网络、端侧部署摘要:当我们用手机拍照时,AI能瞬间识别出“这是一只猫”;智能摄像头能在0.1秒内检测到“有人闯入
AI智能探索者
·
2025-07-03 04:40
AI
Agent
智能体开发实战
人工智能
ai
D-FINE使用pth权重批量推理可视化图片
D-FINE是一款功能强大的实时物体检测器,它将DETRs中的边界框回归任务重新定义为细粒度分布细化(FDR),并引入了全局最优定位自
蒸馏
(GO-LSD),在不引入额
悠悠海风
·
2025-07-03 00:05
代码调试
深度学习
人工智能
python
目标检测
计算机视觉
D-FINE模型详解及代码复现
D-FINE通过创新的细粒度分布优化(FDR)和全局最优定位自
蒸馏
(GO-LSD)机制,为目标检测领域带来了新的突破,为未来的研究奠定了基础。创新优势D-FINE模型在创新方
清风AI
·
2025-07-01 03:23
目标跟踪
人工智能
计算机视觉
深度学习
机器学习
python
神经网络
大模型·知识
蒸馏
·学习笔记
第一部分:核心概念入门1.1什么是知识
蒸馏
?核心问题:深度学习模型(如大型神经网络)虽然性能强大,但其巨大的参数量和计算需求使其难以部署到手机、嵌入式设备等资源受限的平台。
小先生00101
·
2025-06-26 15:27
笔记
人工智能
神经网络
机器学习
自然语言处理
深度学习
语言模型
教师-学生协同知识
蒸馏
机制在私有化系统中的融合路径:架构集成、训练范式与部署实践
教师-学生协同知识
蒸馏
机制在私有化系统中的融合路径:架构集成、训练范式与部署实践关键词:私有化部署、知识
蒸馏
、教师模型、学生模型、协同
蒸馏
、
蒸馏
训练、边缘部署、模型压缩、国产大模型、自监督微调摘要:随着国产大模型在企业私有化环境中的广泛部署
观熵
·
2025-06-24 03:25
人工智能
DeepSeek
私有化部署
大模型驱动核工业智能化的技术架构与核心突破
通过构建行业知识
蒸馏
框架,该模型已形成覆盖12个垂直领域的定制化解决
Deepoch
·
2025-06-23 16:15
人工智能
创业创新
语言模型
DeepSeek核心技术浅谈
蒸馏
版本:将大模型的知识压缩到更小的模型中,性能稍弱但轻便高效。一、提前预热:提前需要知道的背景知识传统机器学习理论:模型复杂度增加时,测试误差先下降后上升。
·
2025-06-23 15:07
深度学习之模型压缩三驾马车:模型剪枝、模型量化、知识
蒸馏
模型压缩有三种最常用的方法:模型剪枝模型量化知识
蒸馏
下面我们分别来通
king of code porter
·
2025-06-21 21:59
深度学习
深度学习
剪枝
人工智能
大模型解密之---模型
蒸馏
模型
蒸馏
:知识的传承艺术想象一下,你有一位学识渊博、经验丰富但年事已高、行动缓慢的“老教授”,也有一位年轻、敏捷、学习能力强的“研究生”。
forever0827
·
2025-06-15 10:00
人工智能
深度学习
语言模型
自然语言处理
文心一言
gpt-3
机器学习
【深度学习解惑】结合神经网络结构剪枝或知识
蒸馏
,能否把 Inception 精剪到 mobile‑friendly 仍保持精度?
Inception系列模型移动端压缩研究报告摘要Inception系列卷积神经网络(如GoogLeNet/Inceptionv1、v3等)通过模型剪枝和知识
蒸馏
等压缩技术可以显著减小模型规模,使其更适合移动端部署
云博士的AI课堂
·
2025-06-11 16:12
大模型技术开发与实践
哈佛博后带你玩转机器学习
深度学习
深度学习
神经网络
剪枝
人工智能
Inception
机器学习
googlenet
大模型系列——大模型核心技术解析:参数量、量化、Zero版本与模型
蒸馏
文章目录大模型系列——大模型核心技术解析:参数量、量化、Zero版本与模型
蒸馏
一、大模型的参数量:智能的"神经元"基础1.1参数量的定义与表示1.2参数量与模型性能的关系1.3参数量爆炸带来的挑战二、大模型量化技术
猫猫姐
·
2025-06-11 08:42
大模型
大模型
人工智能
DeepSeek全域智能革命:从量子纠缠到星际文明的认知跃迁引言:认知边界的坍缩与重构
一、认知架构的技术基石1.1混合专家系统的流形
蒸馏
DeepSeek-R2的MoE架构采用微分流形
蒸馏
技术,将6710亿参数的教师模型(如DeepSeek-Prover-V2)的知识嵌入到动态路由网络中。
feng99520
·
2025-06-11 07:05
重构
DeepSeek-R1-0528实测:小版本更新带来大进步,前端能力惊艳、幻觉降低,能力更强!
(一个喜欢古诗词和编程的Coder)目录一、技术架构革新:从Base到Beast的华丽转身1.核心架构升级2.思维深度的量化突破二、性能表现深度解析:全方位能力跃升1.数学推理能力的巅峰表现2.小模型
蒸馏
的技术突破
Code_流苏
·
2025-06-10 10:36
AI知识图谱
前端
DeepSeek
R1-0528
大语言模型
推理能力
开源AI
685B参数
什么是知识
蒸馏
?如何做模型
蒸馏
?结合案例说明
一、什么是
蒸馏
?核心概念:在机器学习中,“
蒸馏
”指的是知识
蒸馏
。
·
2025-06-09 22:39
HARDTESTS: Synthesizing High-Quality Test Cases for LLM Coding
实验表明,高质量测试用例对强化学习和自
蒸馏
等LLM后期训练过程
UnknownBody
·
2025-06-08 13:20
LLM
Daily
LLM
for
code
人工智能
大模型模型推理的成本过高,如何进行量化或
蒸馏
优化
在人工智能的浪潮中,大模型已经成为推动技术革新的核心引擎。从自然语言处理到图像生成,再到复杂的多模态任务,像GPT、BERT、T5这样的庞大模型展现出了惊人的能力。它们在翻译、对话系统、内容生成等领域大放异彩,甚至在医疗、金融等行业中也开始扮演重要角色。可以说,这些模型正在重塑我们对智能的理解,也为无数应用场景注入了新的可能性。然而,伴随着强大性能而来的,是令人咋舌的推理成本。想象一下,运行一个拥
大模型大数据攻城狮
·
2025-06-04 17:38
大模型
量化
知识蒸馏
python面试
BERT
量化感知
prompt
AI持续学习模型压缩与加速方法大全
AI持续学习模型压缩与加速方法大全关键词:模型压缩、模型加速、持续学习、知识
蒸馏
、模型剪枝、量化、轻量化架构摘要:本文全面解析AI持续学习场景下的模型压缩与加速技术。
AI智能探索者
·
2025-06-04 09:37
人工智能
学习
ai
解剖DeepSeek四把刀,一场深到源码,大到行业,细到人心的手术盛宴
他们公开的是经过
蒸馏
的“成品模型”,而非原始训练框架:就像给你组装好的乐高战舰,却藏起了设计图纸。这种半开放式开源既能吸
·
2025-06-03 21:00
程序员
DeepSeek赋能数据治理解决方案
跨专家知识
蒸馏
:通过教师-学生框架将不同领域专家的知识迁
公众号:优享智库
·
2025-06-03 13:10
DEEPSEEK
AI人工智能
流程管理
战略管理
人力资源
财务管理
数字化转型
数据治理
主数据
数据仓库
人工智能
大数据
系统架构
架构
【保姆级教程 】模型
蒸馏
新突破:利用大模型提升小模型能力的Reasoning模型实践指南!
01前言DeepSeek-R1的爆火让更多开发者注意到模型
蒸馏
技术——这种让小模型也能"开小灶"习得大模型知识精华的秘诀。今天我们就用Qwen2.5-1.5B小模型(相当于AI界的初中生)来进行实践!
大模型入门教程
·
2025-05-30 16:59
人工智能
产品经理
AI
大模型
大模型学习
程序员
大模型教学
YOLOv5改进系列(二十五) 知识
蒸馏
理论与实践
文章目录知识
蒸馏
基础原理精讲1.什么是知识
蒸馏
?2.轻量化网络的方式有哪些?3.为什么要进行知识
蒸馏
?3.1提升模型精度3.2降低模型时延,压缩网络参数3.3标签之间的域迁移4.知识
蒸馏
的理论依据?
小酒馆燃着灯
·
2025-05-30 15:26
YOLO
深度学习
人工智能
大模型「瘦身」指南:从LLaMA到MobileBERT的轻量化部署实战
https://www.captainbed.cn/flu文章目录大模型「瘦身」指南:从LLaMA到MobileBERT的轻量化部署实战摘要引言一、轻量化技术路径对比1.参数剪枝:移除冗余连接2.知识
蒸馏
layneyao
·
2025-05-27 05:16
ai
llama
人工智能
【大模型面试每日一题】Day 25:如何通过模型压缩技术将千亿模型部署到边缘设备?
题目重现面试官:我们需要将千亿参数大模型(如PaLM)部署到边缘设备(如JetsonAGXOrin),请设计一个包含量化、
蒸馏
等压缩技术的部署方案,并说明需要重点考虑的硬件约束、延迟限制、精度损失等关键因素
是麟渊
·
2025-05-23 06:56
LLM
Interview
Daily
面试每日一题
面试
深度学习
人工智能
职场和发展
自然语言处理
语言模型
神经网络
II-Medical-8B论文速读:140 万开源
蒸馏
推理数据集助力大语言模型训练
《140万开源
蒸馏
推理数据集助力大语言模型训练》论文速读一、引言论文介绍了AM-DeepSeek-R1-Distilled数据集,这是一个包含140万条带推理痕迹的通用推理任务数据集,涵盖了高质量且具有挑战性的推理问题
Open-source-AI
·
2025-05-21 10:10
前沿
语言模型
人工智能
自然语言处理
大模型
开源
算法
生成模型
知识
蒸馏
在小样本学习中的作用
知识
蒸馏
在小样本学习中的作用关键词:知识
蒸馏
,小样本学习,深度神经网络,软标签,迁移学习,注意力机制摘要:本文将详细探讨知识
蒸馏
技术在小样本学习中的重要作用。
AI天才研究院
·
2025-05-21 09:32
ChatGPT
AI大模型企业级应用开发实战
大厂Offer收割机
面试题
简历
程序员读书
硅基计算
碳基计算
认知计算
生物计算
深度学习
神经网络
大数据
AIGC
AGI
LLM
Java
Python
架构设计
Agent
程序员实现财富自由
模型
蒸馏
(Knowledge Distillation)
知识
蒸馏
(KnowledgeDistillation,简称KD)是一种深度学习中的模型压缩技术,其核心思想是将大型、复杂模型(教师模型)所学到的知识迁移到较小、结构简单的模型(学生模型)中,从而在保持性能的同时
PWRJOY
·
2025-05-19 17:17
编程通识
模型蒸馏
深度学习
英伟达推理模型论文速读:OpenCodeReasoning-Nemotron-32B
OpenCodeReasoning:AdvancingDataDistillationforCompetitiveCoding1.研究背景与动机自基于推理的大型语言模型(LLMs)出现以来,在代码任务中将推理能力
蒸馏
到学生模型中的技术取得了显著进展
Open-source-AI
·
2025-05-18 19:47
前沿
人工智能
算法
深度学习
大模型
【AI论文】对抗性后期训练快速文本到音频生成
我们提出了对抗相对对比(ARC)后训练,这是第一个不基于
蒸馏
的扩散/流模型的对抗加速算法。
东临碣石82
·
2025-05-16 16:49
人工智能
uDistil-Whisper:低数据场景下基于无标签数据过滤的知识
蒸馏
方法
Label-FreeDataFilteringforKnowledgeDistillationinLow-DataRegimes会议:2025年NAACL机构:卡内基梅降大学Abstract近期研究通过伪标签(pseudo-labels)将Whisper的知识
蒸馏
到小模型中
tongxianchao
·
2025-05-15 10:45
人工智能
机器学习
深度学习
【AI大模型实战项目】llm-action:让天下没有难学的大模型
LLM参数高效微调技术原理综述LLM参数高效微调技术实战LLM分布式训练并行技术分布式AI框架分布式训练网络通信LLM推理LLM推理框架✈️LLM推理优化技术♻️LLM压缩LLM量化LLM剪枝LLM知识
蒸馏
小城哇哇
·
2025-05-14 11:11
人工智能
AI大模型
语言模型
agi
ai
llm
模型微调
D-FINE数据清洗与预处理实战:从零到一构建企业级数据处理流水线
本文将从企业级数据清洗与预处理的实际需求出发,结合D-FINE的细粒度分布优化(FDR)和全局最优定位自
蒸馏
(GO-LSD)技术思想,设计一套高效的数据清洗与预处理实战方案。
Android洋芋
·
2025-05-13 14:19
数据清洗
D-FINE
分布式处理
数据质量验证
智能噪声检测
AI驱动的制造工艺:系统化探索与创新
DeepSeek的目标是开发顶尖的大语言模型(LLM),并利用数据
蒸馏
技术打造更精炼、更实用的AI模型。
数澜悠客
·
2025-05-09 11:02
数据工具箱
思考与沉淀
人工智能
deepseek
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他