E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MoE
DeepSeek 赋能车路协同:智能交通的破局与重构
智能交通车路协同系统概述2.1系统定义与原理2.2系统构成2.3发展现状与挑战三、DeepSeek技术剖析3.1DeepSeek简介3.2核心技术原理3.2.1Transformer架构3.2.2混合专家架构(
MoE
奔跑吧邓邓子
·
2025-06-02 12:38
DeepSeek
实战
DeepSeek
智能交通
车路协同
应用
人工智能
【代码解析】用PyTorch实现混合专家(
MoE
)语言模型
在深度学习和自然语言处理领域,混合专家(MixtureofExperts,
MoE
)模型因其卓越的性能和可扩展性而受到广泛关注。
Kaydeon
·
2025-06-01 01:05
pytorch
语言模型
人工智能
DeepSeek 开发接入技术难点解析:从模型架构到工程落地的实战指南
一、核心技术难点全景透视DeepSeek作为国产大模型的标杆,其技术架构深度融合了
MoE
(混合专家系统)、MLA(多头潜在注意力)和DeepEP分布式通信库等创新设计。
与AI共生
·
2025-05-29 19:56
大厂
AI
工程师的技术私房课
架构
DeepSeek技术解析:
MoE
架构实现与代码实战
https://github.com/ccy-233/coder2retireDeepSeek技术解析:
MoE
架构实现与代码实战作为中国AI领域的创新代表,DeepSeek在混合专家模型(MixtureofExperts
2501_91133329
·
2025-05-29 19:54
架构
AI工业4.0时代:SpringBoot项目接入DeepSeek AI 实践
核心技术和产品DeepSeek的技术核心包括:混合专家架构(
MoE
):通过稀疏激活机制,大幅降低计算量,同时保持高性能。多头潜在注意力(ML
Pz_z
·
2025-05-25 12:32
人工智能
java
开发语言
AI
【读代码】BAGEL:统一多模态理解与生成的模型
:多模态理解:在MME、MMBench等9大评测基准中超越Qwen2.5-VL等主流模型文本生成图像:生成质量媲美SD3等专业生成模型智能图像编辑:支持自由格式编辑、多视角合成等复杂场景1.2技术亮点
MoE
kakaZhui
·
2025-05-25 04:13
前沿多模态大模型:论文与实战
AIGC
人工智能
大模型
图像生成
谷歌Gemini系列全景解析:核心技术与版本差异指南
一、Gemini系列核心特点作为谷歌多模态大模型矩阵的代表,Gemini系列具备以下技术特性:混合专家架构(
MoE
)通过动态路由机制分配计算资源,实现参数规模与推理效率的平衡。
charles666666
·
2025-05-24 20:51
人工智能
产品经理
全文检索
自然语言处理
prompt
NVIDIA 实现通义千问 Qwen3 的生产级应用集成和部署【2025年 5月 2日】
阿里巴巴近期发布了其开源的混合推理大语言模型(LLM)通义千问Qwen3,此次Qwen3开源模型系列包含两款混合专家模型(
MoE
)235B-A22B(总参数2,350亿,激活参数220亿)和30B-A3B
u013250861
·
2025-05-24 05:39
#
LLM/部署&推理
jetson
DeepSeek源码解构:从
MoE
架构到MLA的工程化实现
文章目录**一、代码结构全景:从模型定义到分布式训练****二、
MoE
架构:动态路由与稀疏激活的工程化实践****1.专家路由机制(带负载均衡)****数学原理:负载均衡损失推导****三、MLA注意力机制
程序边界
·
2025-05-23 11:36
架构
动态神经网络(Dynamic NN)在边缘设备的算力分配策略:
MoE
架构实战分析
实时变化,帧率波动范围20-60FPS能效约束设备功耗需控制在15W以内(被动散热)多任务耦合典型场景需同步处理:目标检测(YOLOv8s)行为识别(SlowFast)语义分割(DeepLabv3)二、
MoE
学术猿之吻
·
2025-05-23 05:52
神经网络
架构
人工智能
算法
量子计算
深度学习
机器学习
DeepSeek-V2:高效
MoE
与MLA创新架构
详细分析:核心观点:DeepSeek-V2通过创新的Mixture-of-Experts(
MoE
)架构和Multi-headLatentAttention(MLA)机制,显著提升了模型性能并降低了训练和推理成本
weixin_57060548
·
2025-05-22 12:40
架构
人工智能
DeepSeek 的
MoE
(混合专家)架构:如何实现高效推理?
DeepSeek的
MoE
(混合专家)架构:如何实现高效推理?
layneyao
·
2025-05-21 19:11
ai
架构
人工智能
【论文速读】MOD,《Mixture-of-Depths: Dynamically allocating compute in transformer-based language models》
论文链接:https://arxiv.org/html/2404.02258v1最近看到有招聘要求中提到熟悉
MoE
、MoD。
MoE
前面学习过,赶紧学习一下MoD!
bylander
·
2025-05-21 09:37
AI论文阅读
transformer
语言模型
深度学习
论文阅读
人工智能
自然语言处理
知识图谱重构电商搜索:下一代AI搜索引擎的底层逻辑
而AI搜索引擎正在掀起第四次革命:在电商场景中,传统的「关键词匹配」已无法满足个性化购物需求,
MOE
搜索等新一代架构开始融合知识图谱搜索、语音搜索、图像识别购物等能力,构建智能电商的神经中枢。
fatesunlove
·
2025-05-19 23:29
搜索引擎
知识图谱
ai
MoE
开山之作(1991年)——Adaptive Mixtures of Local Experts
如果我们事先知道训练集可以自然地分成对应不同子任务的子集,那么可以通过构建由多个“专家”网络和一个决定训练数据使用哪个“专家”网络的
MoE
模型,来减少干扰。
胖头鱼爱算法
·
2025-05-17 19:29
AI论文/书籍
论文阅读
论文笔记
语言模型
人工智能
自然语言处理
深度学习
全局负载均衡损失
全局负载均衡损失在不同领域(如网络架构与
MoE
模型训练)中存在不同形态,结合我搜索到的资料,以下从混合专家模型(
MoE
)角度进行详细分析:1.基本概念与设计目标在
MoE
模型中,全局负载均衡损失的核心目标是解决专家或设备间负载不均衡导致的性能瓶颈
百态老人
·
2025-05-17 17:48
负载均衡
运维
【大模型】
MoE
论文简单解读
MoE
(MixtureofExperts)是一种模块化的神经网络架构,通过将多个专家网络(Experts)组合起来,由一个门控网络(Gate)动态决定每次输入激活哪些专家,从而实现模型容量与计算效率的平衡
油泼辣子多加
·
2025-05-17 14:54
大模型实战
算法
机器学习
自然语言处理
人工智能
阿里巴巴Qwen3大模型深度解析
阿里巴巴Qwen3大模型深度解析:技术突破、应用场景与行业竞争一、核心技术创新:推理效率与硬件适配的双重突破动态混合专家系统(
MoE
)Qwen3采用分层稀疏调度与动态专家激活机制,15B参数模型中仅需激活
不会啊~
·
2025-05-16 12:22
科技
人工智能
DeepSeek-V3与DeepSeek-R1的对比
尽管DeepSeek-R1和DeepSeek-V3基于相似的技术框架(混合专家架构
MoE
),但在设计目标、训练方法、性能表现和应用场景上存在显著差异。
guanking
·
2025-05-16 11:41
技术
大模型
DeepSeek
DeepSeek-V3
DeepSeek-R1
0基础小白入门必看:AI大模型基本概念与工具梳理
MoE
(MixtureofExperts),混合专家模型(一种模型架构,通过多个“专家”网络并行处理输入数据,然后通过门控机制选择最合适的专家输出结果。
MoE
模型特别适合于处理大规模数据,在计算效
AI小白熊
·
2025-05-13 04:15
人工智能
深度学习
语言模型
机器学习
ai
程序员
转行
DeepSeek 混合专家
MoE
架构 PK Manus AGI 智能体技术,谁是复杂任务适配强者?
DeepSeek混合专家
MoE
架构PKManusAGI智能体技术,谁是复杂任务适配强者?
小焱写作
·
2025-05-13 02:02
DeepSeek
语音识别
人工智能
大数据
【人工智能】DeepSeek的崛起-下一代AI模型的秘密武器
本文深入探讨DeepSeek崛起背后的技术秘密,聚焦其创新的混合专家架构(
MoE
)、多头潜注意力机制(MLA)、强化学习优化(GRPO)以及多标
蒙娜丽宁
·
2025-05-12 19:21
Python杂谈
人工智能
人工智能
[论文笔记] 超详细解读DeepSeek v3全论文技术报告
DeepSeek-V3是一个强大的专家混合(Mixture-of-Experts,
MoE
)语言模型,总共671B参数,每个token激活37B参数(可以理解为有多个专家,但每个token只会选择一部分专家进行推理
心心喵
·
2025-05-11 13:02
论文笔记
论文阅读
MoE
Align & Sort在医院AI医疗领域的前景分析(代码版)
MoEAlign&Sort技术通过优化混合专家模型(
MoE
)的路由与计算流程,在医疗数据处理、模型推理效率及多模态任务协同中展现出显著优势,其技术价值与应用意义从以下三方面展开分析:一、方向分析1、提升医疗数据处理效率在医疗场景中
Allen_Lyb
·
2025-05-11 04:32
医疗数智化教程
人工智能
健康医疗
数据分析
架构
华为昇腾NPU新突破!国产算力如何重塑万亿参数大模型训练格局?
当全球科技巨头仍在为训练万亿参数模型寻求硬件突破时,华为昇腾团队凭借6000+块国产NPU集群,成功实现7180亿参数
MoE
模型的稳定训练,这一成就不仅标志着中国在AI算力领域迈入全球第一梯队,更预示着国产
算家计算
·
2025-05-10 10:35
话题文章
华为昇腾
英伟达
国产算力
AI算力
大模型训练
算家云
租算力
到算家云
深度学习-159-综述之混合专家模型和推理模型以及工作流和智能体的概念
文章目录1专家混合模型(
MoE
)1.1专家1.2路由器1.3稀疏和密集
MoE
2混合推理模型2.1快思考模式2.2慢思考模式2.3两种模式的切换2.4混合推理模型Qwen33工作流和智能体3.1工作流(Workflow
皮皮冰燃
·
2025-05-08 11:24
深度学习
深度学习
人工智能
《向量数据库指南》——稀疏激活:解锁大数据处理新纪元
稀疏激活的力量:解锁向量数据库与
MoE
模型的效能密码在大数据与人工智能的浪潮中,向量数据库作为连接高效存储与智能检索的桥梁,正逐步成为数据处理领域的新宠。
大禹智库
·
2025-05-04 02:24
《实战AI智能体》
《向量数据库指南》
数据库
人工智能
向量数据库
大禹智库
低代码
Mlivus
Cloud
大模型学习笔记之Dense模型与
MOE
模型比较
Dense模型(稠密模型)是一种神经网络架构,其核心特点是模型中的所有参数在每次计算时都会被激活并参与计算。以下是Dense模型的详细解释:定义全连接特性:在Dense模型中,每一层的每个神经元都与下一层的所有神经元相连,形成一个完全互联的结构[5]。例如,在一个典型的Dense层中,输入数据的每个元素都会被传递到输出数据的每个元素[8]。全激活模式:对于每个输入数据点,网络中的所有参数(包括连接
hollow__world
·
2025-05-03 19:07
学习
笔记
Moe
(混合专家)架构和Dense架构对比?
MoE
架构和Dense架构有以下一些对比:结构设计
MoE
架构:将模型拆分为多个“专家”网络,由门控网络根据输入特征选择Top-K个相关专家进行计算,实现“稀疏计算”。
zhangzeyuaaa
·
2025-05-03 19:06
大模型
架构
Switch Transformers:核心贡献与
MoE
的区别
SwitchTransformers:核心贡献与
MoE
的区别《SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity
阿正的梦工坊
·
2025-05-03 18:31
LLM
DL
Papers
Deep
Learning
人工智能
机器学习
Loss-Free Balancing
MoE
论文解读:无损负载均衡的突破
《AUXILIARY-LOSS-FREELOADBALANCINGSTRATEGYFORMIXTURE-OF-EXPERTS》是一篇由LeanWang等人于2024年发表的预印本论文,提出了一种新颖的
MoE
阿正的梦工坊
·
2025-05-03 18:31
DL
Papers
LLM
负载均衡
人工智能
语言模型
自然语言处理
DeepSeek多语言AI模型:低成本高性能如何革新论文写作与代码生成
该模型基于混合专家架构(
MoE
)构建,通过670亿参数的分布式计算框架,实现了对多语言文本、视觉信息的联合理解与生成能力。
智能计算研究中心
·
2025-05-03 10:06
其他
DeepSeek-V3 技术解析:DeepSeek 如何优化
MoE
?
引言近年来,深度学习模型规模急剧扩大,专家混合模型(Mixture-of-Experts,
MoE
)凭借其高参数稀疏激活和高效计算优势,逐渐成为学术界与工业界关注的热点。
荣华富贵8
·
2025-05-03 06:05
程序员的知识储备1
程序员的知识储备2
程序员的知识储备3
经验分享
《DeepSeek
MoE
架构下,动态专家路由优化全解析》
DeepSeek的混合专家模型(
MoE
)架构,以其独特的设计理念和卓越的性能表现,在大模型领域崭露头角。
程序猿阿伟
·
2025-05-03 05:04
架构
DeepSeek Coder:面向编程的代码专用模型
架构与规模DeepSeekCoder系列基于DeepSeekV2的Transformer骨干结构,集成了混合专家(
MoE
,Mixture-of-Experts)技术,以在参数规模和算力资源之间实现高效平衡
Chaos_Wang_
·
2025-05-02 22:12
NLP/大模型八股
自然语言处理
deepseek
深度学习
人工智能
抢先体验全新极小大模型Qwen3:0.6B
据大模型镜像网站上关于Qwen3的介绍:Qwen3是Qwen系列中最新一代的大型语言模型,提供一整套密集模型和混合专家(
MoE
)模型。
康顺哥
·
2025-05-02 15:57
AI大模型
#
ai
AI编程
语言模型
人工智能
数据库
通义灵码正式上线 Qwen3,编程智能体马上来了!
此次开源包括两款
MoE
模型:Qwen3-235B-A22B(2350多亿总参数、220多亿激活参),以及Qwen3-30B-A3B(300亿总参数、30亿激活参数);以及六个Dense模型:Qwen3-
阿里云云原生
·
2025-05-02 05:47
阿里云
云原生
Qwen
通义灵码
DataWorks Copilot 集成 Qwen3-235B-A22B混合推理模型,AI 效能再升级!
Qwen3是Qwen系列最新一代的大语言模型,包含一系列混合专家(
MoE
)和稠密(Dense)模型。参数量覆盖从0.6B到235B不等,适应不同的应用场景需求。独
阿里云大数据AI技术
·
2025-05-01 14:40
Qwen3
DataWorks
Copilot
MCP
MoE
【AI热点】meta新发布llama4深度洞察(快速认知)
一、Llama 4家族整体概览家族成员Llama 4Scout总参数量约109 B(1090亿),活跃参数量17 B(170亿),拥有16个专家(MixtureofExperts,
MoE
)。
碣石潇湘无限路
·
2025-05-01 04:05
人工智能
llama4
llm
大模型
meta
Mixture-of-Experts(
MoE
)原理与在DeepSeek中的应用
MoE
机制简介Mixture-of-Experts(
MoE
,混合专家)是一种“分而治之”的神经网络架构思想。在
MoE
模型中,存在多个并行的子网络,被称为“专家”。
Chaos_Wang_
·
2025-04-30 23:05
NLP/大模型八股
deepseek
语言模型
人工智能
自然语言处理
大模型时代开发者,谁最吃香?
以下是从技术落地到实际应用阶段,预计需求大增的工程人员类型及其核心技能方向:1.大模型核心研发与调优AI/ML研究人员与工程师需求点:模型架构创新(如稀疏化训练、
MoE
)、训练效率优化(降低算力成本)、
程序员差不多先生
·
2025-04-29 04:28
AI-native
AIGC
langchain
paddle
如何评价 DeepSeek 的 DeepSeek-V3 模型?
从多个方面来看,DeepSeek-V3的表现令人印象深刻,具体评价如下:性能卓越DeepSeek-V3拥有6710亿参数和370亿激活参数,采用
MoE
(混合专家)架构,并在14.8万亿token上进行了预训练
关于NLP那些你不知道的事
·
2025-04-29 00:59
deepseek
大模型LLMs
强化学习
人工智能
自然语言处理
深度学习
MoE
架构解析:如何用“分治”思想打造高效大模型?
这就是
MoE
(MixtureofExperts,混合专家)架构诞生的意义所在。一、
MoE
的核心思想:让专业的人做专业的事想象一家医院急诊科:当患者进入时,分诊台会根据症状快速
路人与大师
·
2025-04-27 18:23
架构
理想MindVLA学习解读
1)关键技术3D高斯混合专家模型
MoE
从头训练的LLM模型底座人类反馈强化学习基于扩散模型的自车+周车闭环轨迹2)框架3)引申的技术细分
SLAM必须dunk
·
2025-04-27 05:57
学习
DeepSeek开源周发布
MOE
架构千亿级模型部署秘籍
DeepSeek开源周发布
MOE
架构千亿级模型部署秘籍原创NLP轻松谈NLP轻松谈2025年03月03日10:02北京第一天(2月24日):FlashMLAFlashMLA是一个针对英伟达HopperGPU
强化学习曾小健
·
2025-04-27 02:07
人工智能
《Google Gemini 1.5 Pro:
MoE
架构如何重塑AI性能与效率》
尤其是其采用的混合专家系统(
MoE
)架构扩展,为模型性能与推理效率带来了革命性的提升,在AI领域掀起了一阵讨论热潮。
·
2025-04-25 16:20
人工智能
三大顶流AI模型场景化横评:Claude3.7 vs GPT4.5 vs Grok3开发者该如何选?
一、模型技术画像速览维度Claude3.7GPT4.5Grok3核心架构改进型ConstitutionalAI混合专家(
MoE
)架构动态稀疏注意力机制上下文窗口500Ktokens128Ktokens1M
AWS官方合作商
·
2025-04-24 07:41
人工智能
aws
云计算
编辑器
DeepSeek投喂数据训练AI教程
其采用的稀疏激活混合专家(
MoE
)架构和多头潜在注意力(MLA)机制,显著提升了模型对垂直领域数据的适应能力。
摆烂大大王
·
2025-04-22 00:47
deepseek
人工智能
deepseek
自然语言处理
个人开发
开源
DeepSeek与其他大模型性能参数详细对比
以下是详细的对比分析:技术架构对比特性DeepSeekOpenAIGPT-4GoogleGeminiAnthropicClaude架构混合专家(
MoE
)架构,结合强化学习基于Transformer的密集模型多模态模型
胡萝卜不甜
·
2025-04-21 09:58
AI洪流
心灵共勉
人工智能大模型
机器学习
python
机器学习
算法
逻辑回归
开发语言
深度剖析:DeepSeek V3 与 R1 版本的全面对比
二、DeepSeekV3版本(一)模型架构采用前沿的混合专家模型(
MoE
)与多头潜在注意力机制(MLA)的深度融合,能够动态分配计算资源,高效处理复杂的语言模式和语义关系。
ghs_gss
·
2025-04-19 21:03
机器学习
人工智能
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他