MoE 第2页

DeepSeek 赋能车路协同：智能交通的破局与重构

智能交通车路协同系统概述2.1系统定义与原理2.2系统构成2.3发展现状与挑战三、DeepSeek技术剖析3.1DeepSeek简介3.2核心技术原理3.2.1Transformer架构3.2.2混合专家架构（MoE

奔跑吧邓邓子·2025-06-02 12:38

【代码解析】用PyTorch实现混合专家（MoE）语言模型

在深度学习和自然语言处理领域，混合专家（MixtureofExperts,MoE）模型因其卓越的性能和可扩展性而受到广泛关注。

Kaydeon·2025-06-01 01:05

DeepSeek 开发接入技术难点解析：从模型架构到工程落地的实战指南

一、核心技术难点全景透视DeepSeek作为国产大模型的标杆，其技术架构深度融合了MoE（混合专家系统）、MLA（多头潜在注意力）和DeepEP分布式通信库等创新设计。

与AI共生·2025-05-29 19:56

DeepSeek技术解析：MoE架构实现与代码实战

https://github.com/ccy-233/coder2retireDeepSeek技术解析：MoE架构实现与代码实战作为中国AI领域的创新代表，DeepSeek在混合专家模型（MixtureofExperts

2501_91133329·2025-05-29 19:54

AI工业4.0时代：SpringBoot项目接入DeepSeek AI 实践

核心技术和产品DeepSeek的技术核心包括：混合专家架构（MoE）：通过稀疏激活机制，大幅降低计算量，同时保持高性能。多头潜在注意力（ML

Pz_z·2025-05-25 12:32

【读代码】BAGEL：统一多模态理解与生成的模型

：多模态理解：在MME、MMBench等9大评测基准中超越Qwen2.5-VL等主流模型文本生成图像：生成质量媲美SD3等专业生成模型智能图像编辑：支持自由格式编辑、多视角合成等复杂场景1.2技术亮点MoE

kakaZhui·2025-05-25 04:13

谷歌Gemini系列全景解析：核心技术与版本差异指南

一、Gemini系列核心特点作为谷歌多模态大模型矩阵的代表，Gemini系列具备以下技术特性：混合专家架构（MoE）通过动态路由机制分配计算资源，实现参数规模与推理效率的平衡。

charles666666·2025-05-24 20:51

NVIDIA 实现通义千问 Qwen3 的生产级应用集成和部署【2025年 5月 2日】

阿里巴巴近期发布了其开源的混合推理大语言模型（LLM）通义千问Qwen3，此次Qwen3开源模型系列包含两款混合专家模型(MoE)235B-A22B（总参数2,350亿，激活参数220亿）和30B-A3B

u013250861·2025-05-24 05:39

DeepSeek源码解构：从MoE架构到MLA的工程化实现

文章目录**一、代码结构全景：从模型定义到分布式训练****二、MoE架构：动态路由与稀疏激活的工程化实践****1.专家路由机制（带负载均衡）****数学原理：负载均衡损失推导****三、MLA注意力机制

程序边界·2025-05-23 11:36

动态神经网络(Dynamic NN)在边缘设备的算力分配策略：MoE架构实战分析

实时变化，帧率波动范围20-60FPS能效约束设备功耗需控制在15W以内（被动散热）多任务耦合典型场景需同步处理：目标检测（YOLOv8s）行为识别（SlowFast）语义分割（DeepLabv3）二、MoE

学术猿之吻·2025-05-23 05:52

DeepSeek-V2：高效MoE与MLA创新架构

详细分析：核心观点：DeepSeek-V2通过创新的Mixture-of-Experts(MoE)架构和Multi-headLatentAttention(MLA)机制，显著提升了模型性能并降低了训练和推理成本

weixin_57060548·2025-05-22 12:40

DeepSeek 的 MoE（混合专家）架构：如何实现高效推理？

DeepSeek的MoE（混合专家）架构：如何实现高效推理？

layneyao·2025-05-21 19:11

【论文速读】MOD，《Mixture-of-Depths: Dynamically allocating compute in transformer-based language models》

论文链接：https://arxiv.org/html/2404.02258v1最近看到有招聘要求中提到熟悉MoE、MoD。MoE前面学习过，赶紧学习一下MoD！

bylander·2025-05-21 09:37

知识图谱重构电商搜索：下一代AI搜索引擎的底层逻辑

而AI搜索引擎正在掀起第四次革命：在电商场景中，传统的「关键词匹配」已无法满足个性化购物需求，MOE搜索等新一代架构开始融合知识图谱搜索、语音搜索、图像识别购物等能力，构建智能电商的神经中枢。

fatesunlove·2025-05-19 23:29

MoE开山之作（1991年）——Adaptive Mixtures of Local Experts

如果我们事先知道训练集可以自然地分成对应不同子任务的子集，那么可以通过构建由多个“专家”网络和一个决定训练数据使用哪个“专家”网络的MoE模型，来减少干扰。

胖头鱼爱算法·2025-05-17 19:29

全局负载均衡损失

全局负载均衡损失在不同领域（如网络架构与MoE模型训练）中存在不同形态，结合我搜索到的资料，以下从混合专家模型（MoE）角度进行详细分析：1.基本概念与设计目标在MoE模型中，全局负载均衡损失的核心目标是解决专家或设备间负载不均衡导致的性能瓶颈

百态老人·2025-05-17 17:48

【大模型】MoE论文简单解读

MoE（MixtureofExperts）是一种模块化的神经网络架构，通过将多个专家网络（Experts）组合起来，由一个门控网络（Gate）动态决定每次输入激活哪些专家，从而实现模型容量与计算效率的平衡

油泼辣子多加·2025-05-17 14:54

阿里巴巴Qwen3大模型深度解析

阿里巴巴Qwen3大模型深度解析：技术突破、应用场景与行业竞争一、核心技术创新：推理效率与硬件适配的双重突破动态混合专家系统（MoE）Qwen3采用分层稀疏调度与动态专家激活机制，15B参数模型中仅需激活

不会啊~·2025-05-16 12:22

DeepSeek-V3与DeepSeek-R1的对比

尽管DeepSeek-R1和DeepSeek-V3基于相似的技术框架（混合专家架构MoE），但在设计目标、训练方法、性能表现和应用场景上存在显著差异。

guanking·2025-05-16 11:41

0基础小白入门必看：AI大模型基本概念与工具梳理

MoE（MixtureofExperts)，混合专家模型（一种模型架构，通过多个“专家”网络并行处理输入数据，然后通过门控机制选择最合适的专家输出结果。MoE模型特别适合于处理大规模数据，在计算效

AI小白熊·2025-05-13 04:15

DeepSeek 混合专家 MoE 架构 PK Manus AGI 智能体技术，谁是复杂任务适配强者？

DeepSeek混合专家MoE架构PKManusAGI智能体技术，谁是复杂任务适配强者？

小焱写作·2025-05-13 02:02

【人工智能】DeepSeek的崛起-下一代AI模型的秘密武器

本文深入探讨DeepSeek崛起背后的技术秘密，聚焦其创新的混合专家架构（MoE）、多头潜注意力机制（MLA）、强化学习优化（GRPO）以及多标

蒙娜丽宁·2025-05-12 19:21

[论文笔记] 超详细解读DeepSeek v3全论文技术报告

DeepSeek-V3是一个强大的专家混合（Mixture-of-Experts，MoE）语言模型，总共671B参数，每个token激活37B参数（可以理解为有多个专家，但每个token只会选择一部分专家进行推理

心心喵·2025-05-11 13:02

MoE Align & Sort在医院AI医疗领域的前景分析（代码版）

MoEAlign&Sort技术通过优化混合专家模型（MoE）的路由与计算流程，在医疗数据处理、模型推理效率及多模态任务协同中展现出显著优势，其技术价值与应用意义从以下三方面展开分析：一、方向分析1、提升医疗数据处理效率在医疗场景中

Allen_Lyb·2025-05-11 04:32

华为昇腾NPU新突破！国产算力如何重塑万亿参数大模型训练格局？

当全球科技巨头仍在为训练万亿参数模型寻求硬件突破时，华为昇腾团队凭借6000+块国产NPU集群，成功实现7180亿参数MoE模型的稳定训练，这一成就不仅标志着中国在AI算力领域迈入全球第一梯队，更预示着国产

算家计算·2025-05-10 10:35

深度学习-159-综述之混合专家模型和推理模型以及工作流和智能体的概念

文章目录1专家混合模型(MoE)1.1专家1.2路由器1.3稀疏和密集MoE2混合推理模型2.1快思考模式2.2慢思考模式2.3两种模式的切换2.4混合推理模型Qwen33工作流和智能体3.1工作流(Workflow

皮皮冰燃·2025-05-08 11:24

《向量数据库指南》——稀疏激活：解锁大数据处理新纪元

稀疏激活的力量：解锁向量数据库与MoE模型的效能密码在大数据与人工智能的浪潮中，向量数据库作为连接高效存储与智能检索的桥梁，正逐步成为数据处理领域的新宠。

大禹智库·2025-05-04 02:24

大模型学习笔记之Dense模型与MOE模型比较

Dense模型（稠密模型）是一种神经网络架构，其核心特点是模型中的所有参数在每次计算时都会被激活并参与计算。以下是Dense模型的详细解释：定义全连接特性：在Dense模型中，每一层的每个神经元都与下一层的所有神经元相连，形成一个完全互联的结构[5]。例如，在一个典型的Dense层中，输入数据的每个元素都会被传递到输出数据的每个元素[8]。全激活模式：对于每个输入数据点，网络中的所有参数（包括连接

hollow__world·2025-05-03 19:07

Moe(混合专家)架构和Dense架构对比？

MoE架构和Dense架构有以下一些对比：结构设计MoE架构：将模型拆分为多个“专家”网络，由门控网络根据输入特征选择Top-K个相关专家进行计算，实现“稀疏计算”。

zhangzeyuaaa·2025-05-03 19:06

Switch Transformers：核心贡献与MoE的区别

SwitchTransformers：核心贡献与MoE的区别《SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity

阿正的梦工坊·2025-05-03 18:31

Loss-Free Balancing MoE论文解读：无损负载均衡的突破

《AUXILIARY-LOSS-FREELOADBALANCINGSTRATEGYFORMIXTURE-OF-EXPERTS》是一篇由LeanWang等人于2024年发表的预印本论文，提出了一种新颖的MoE

阿正的梦工坊·2025-05-03 18:31

DeepSeek多语言AI模型：低成本高性能如何革新论文写作与代码生成

该模型基于混合专家架构（MoE）构建，通过670亿参数的分布式计算框架，实现了对多语言文本、视觉信息的联合理解与生成能力。

智能计算研究中心·2025-05-03 10:06

DeepSeek-V3 技术解析：DeepSeek 如何优化 MoE？

引言近年来，深度学习模型规模急剧扩大，专家混合模型（Mixture-of-Experts,MoE）凭借其高参数稀疏激活和高效计算优势，逐渐成为学术界与工业界关注的热点。

荣华富贵8·2025-05-03 06:05

《DeepSeek MoE架构下，动态专家路由优化全解析》

DeepSeek的混合专家模型（MoE）架构，以其独特的设计理念和卓越的性能表现，在大模型领域崭露头角。

程序猿阿伟·2025-05-03 05:04

DeepSeek Coder：面向编程的代码专用模型

架构与规模DeepSeekCoder系列基于DeepSeekV2的Transformer骨干结构，集成了混合专家（MoE,Mixture-of-Experts）技术，以在参数规模和算力资源之间实现高效平衡

Chaos_Wang_·2025-05-02 22:12

抢先体验全新极小大模型Qwen3:0.6B

据大模型镜像网站上关于Qwen3的介绍：Qwen3是Qwen系列中最新一代的大型语言模型，提供一整套密集模型和混合专家（MoE）模型。

康顺哥·2025-05-02 15:57

通义灵码正式上线 Qwen3，编程智能体马上来了！

此次开源包括两款MoE模型：Qwen3-235B-A22B（2350多亿总参数、220多亿激活参），以及Qwen3-30B-A3B（300亿总参数、30亿激活参数）；以及六个Dense模型：Qwen3-

阿里云云原生·2025-05-02 05:47

DataWorks Copilot 集成 Qwen3-235B-A22B混合推理模型，AI 效能再升级！

阿里云大数据AI技术·2025-05-01 14:40

【AI热点】meta新发布llama4深度洞察（快速认知）

一、Llama 4家族整体概览家族成员Llama 4Scout总参数量约109 B（1090亿），活跃参数量17 B（170亿），拥有16个专家（MixtureofExperts,MoE）。

碣石潇湘无限路·2025-05-01 04:05

Mixture-of-Experts（MoE）原理与在DeepSeek中的应用

MoE机制简介Mixture-of-Experts（MoE，混合专家）是一种“分而治之”的神经网络架构思想。在MoE模型中，存在多个并行的子网络，被称为“专家”。

Chaos_Wang_·2025-04-30 23:05

大模型时代开发者，谁最吃香？

以下是从技术落地到实际应用阶段，预计需求大增的工程人员类型及其核心技能方向：1.大模型核心研发与调优AI/ML研究人员与工程师需求点：模型架构创新（如稀疏化训练、MoE）、训练效率优化（降低算力成本）、

程序员差不多先生·2025-04-29 04:28

如何评价 DeepSeek 的 DeepSeek-V3 模型？

从多个方面来看，DeepSeek-V3的表现令人印象深刻，具体评价如下：性能卓越DeepSeek-V3拥有6710亿参数和370亿激活参数，采用MoE（混合专家）架构，并在14.8万亿token上进行了预训练

关于NLP那些你不知道的事·2025-04-29 00:59

MoE架构解析：如何用“分治”思想打造高效大模型？

这就是MoE（MixtureofExperts，混合专家）架构诞生的意义所在。一、MoE的核心思想：让专业的人做专业的事想象一家医院急诊科：当患者进入时，分诊台会根据症状快速

路人与大师·2025-04-27 18:23

理想MindVLA学习解读

1）关键技术3D高斯混合专家模型MoE从头训练的LLM模型底座人类反馈强化学习基于扩散模型的自车+周车闭环轨迹2）框架3）引申的技术细分

SLAM必须dunk·2025-04-27 05:57

DeepSeek开源周发布MOE架构千亿级模型部署秘籍

DeepSeek开源周发布MOE架构千亿级模型部署秘籍原创NLP轻松谈NLP轻松谈2025年03月03日10:02北京第一天（2月24日）：FlashMLAFlashMLA是一个针对英伟达HopperGPU

强化学习曾小健·2025-04-27 02:07

《Google Gemini 1.5 Pro：MoE架构如何重塑AI性能与效率》

尤其是其采用的混合专家系统（MoE）架构扩展，为模型性能与推理效率带来了革命性的提升，在AI领域掀起了一阵讨论热潮。

·2025-04-25 16:20

三大顶流AI模型场景化横评：Claude3.7 vs GPT4.5 vs Grok3开发者该如何选？

一、模型技术画像速览维度Claude3.7GPT4.5Grok3核心架构改进型ConstitutionalAI混合专家(MoE)架构动态稀疏注意力机制上下文窗口500Ktokens128Ktokens1M

AWS官方合作商·2025-04-24 07:41

DeepSeek投喂数据训练AI教程

其采用的稀疏激活混合专家（MoE）架构和多头潜在注意力（MLA）机制，显著提升了模型对垂直领域数据的适应能力。

摆烂大大王·2025-04-22 00:47

DeepSeek与其他大模型性能参数详细对比

以下是详细的对比分析：技术架构对比特性DeepSeekOpenAIGPT-4GoogleGeminiAnthropicClaude架构混合专家（MoE）架构，结合强化学习基于Transformer的密集模型多模态模型

胡萝卜不甜·2025-04-21 09:58

深度剖析：DeepSeek V3 与 R1 版本的全面对比

二、DeepSeekV3版本（一）模型架构采用前沿的混合专家模型（MoE）与多头潜在注意力机制（MLA）的深度融合，能够动态分配计算资源，高效处理复杂的语言模式和语义关系。

ghs_gss·2025-04-19 21:03

推荐频道

MoE