MoE

通义万相2.2：开启高清视频生成新纪元

一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD

Liudef06小白·2025-07-29 23:47

大模型【进阶】（一）MoE（mixture of experts）混合专家结构

什么是MoE结构？MoE（MixtureofExperts，专家混合模型）是一种深度学习模型架构，通常用于处理大规模模型和计算资源效率的挑战。

ReinaXue·2025-07-29 05:01

阿里开源Qwen3-Coder，编程大模型进入高效时代

技术架构与性能突破Qwen3-Coder采用混合专家（MoE）架构，总参数量达480B，但实际激活参数仅35B，在保证性能的同时显著

未来智慧谷·2025-07-28 05:37

AI应用 | 【AI+工业】LLM（大型语言模型）在工业领域中的十个应用

据报道，GPT-4甚至采用了八个与GPT-3.5规模相当的LLM，通过混合专家（MoE）的方式进行配置。尽管LLM在某些方面存在限制，如在过多上下文的情况下可能产生事

我爱学大模型·2025-07-27 17:39

Transformer危！谷歌MoR架构发布：内存减半推理速度还翻倍

超越Transformer，谷歌推出全新底层架构——Mixture-of-Recursions（MoR），注意不是MoE，它能推理速度提高2倍，而KV内存直接减半！

2501_92765346·2025-07-26 03:08

LLM指纹底层技术——混合专家模型

下面讲一下当前大模型领域最炙手可热的架构之一，也是“LLM指纹”体系中一个极其丰富的、多维度的信号来源——混合专家模型(Mixture-of-Experts,MoE)。

9命怪猫·2025-07-24 18:14

巅峰对决：文心4.5 vs DeepSeek R1 vs 通义Qwen3.0——国产大模型技术路线与场景能力深度横评

一、技术架构：三条路径，三种哲学文心4.5：多模态原生MoE的“全能战士”百度2025年6月开源的文心4.5系列，采用异构多专家模型（MoE）架构，其核心创新在于跨模态参数共享机制。

鼓掌MVP·2025-07-24 15:26

现代人工智能综合分类：大模型时代的架构、模态与生态系统

司南锤·2025-07-21 11:57

本地部署 Kimi K2 全指南（llama.cpp、vLLM、Docker 三法）

KimiK2是MoonshotAI于2025年7月11日发布的高性能多专家语言模型（MoE），支持最大128K上下文，激活参数规模为32B，具备极强的推理、代码生成与多轮对话能力。

迎风斯黄·2025-07-20 11:09

Kimi Chat 1.5 与 2.0 架构升级对比

1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。

charles666666·2025-07-12 17:54

大模型MoE模型技术详解

场景：大型超市的收银区域想象一下周末的超市，人山人海（就像大模型要处理海量的Token）。众多收银台（专家）：超市有20个收银台，每个收银台都是一个“专家”。有的收银台是人工柜台（擅长处理现金、复杂商品、老人购物）；有的是自助扫码机（适合年轻人、商品少、动作快）；有的是快速通道（只允许买5件商品以下的顾客）；有的是大宗商品通道（专门处理整箱饮料、大件物品）。智能引导系统（门控网络）：顾客（每个To

大雷神·2025-07-12 10:44

深度解码：企业级 AI 选型中 Gemini 与 DeepSeek 的架构对决

开篇：技术选型会议中的认知困局当技术团队尝试评估基于MoE（专家混合）架构的Gemini1.5Pro和DeepSeek-V3时，决策者往往陷入认知混乱。尽管两者同属MoE架构，实际测试表现却大相径庭。

charles666666·2025-07-10 18:38

MIAOYUN | 每周AI新鲜事儿（06.27-07.04）

AI开源大模型腾讯混元发布首款开源混合推理MoE模型「Hunyuan-A13B」6月27日，腾讯混元宣布开源首个混合推理MoE模型「Hunyuan-A13B」，总参数80B，激活

·2025-07-07 11:12

百度文心一言4.5震撼发布：多模态大模型开源，4240亿参数，免费商用授权

这次开源的并不是一个单一模型，而是一个完整的多模态MoE模型家族，包括：：47B和3B的多模态MoE大模型，具备多模态感知和高性能通用推理能力多

·2025-07-06 07:38

大模型的MoE架构解析：从理论到应用的系统探讨

从GPT-4的1.8万亿参数到DeepSeek-V3的671亿参数，MoE架构已成为当前AI领域最重要的技术突破之一。

不秃头de程序猿·2025-07-06 06:34

百度文心大模型4.5开源风暴！API同步开放！

此番，百度一次性推出10款开源模型，涵盖从47B参数的混合专家（MoE）模型到轻量级0.3B稠密型模型，覆盖文本、多模态等多种任务需求。

程序员辣条·2025-07-06 04:23

DeepSeek-V3 私有化部署配置方案（以 vLLM / FastDeploy 为主）

目标：在本地或私有服务器中部署DeepSeek-V3或其MoE结构变体支持高并发推理、高效资源利用提供HTTP接口供前端/插件/Agent调用方案对比方案支持MoE性能优化推荐场景vLLM部分支持高（KVCache

·2025-07-06 00:55

百度文心大模型 4.5 系列全面开源英特尔同步支持端侧部署

2025年6月30日，百度如期兑现2月14日的预告，正式开源文心大模型4.5（ERNIE4.5）系列，涵盖10款不同参数规模的模型，包括470亿参数混合专家（MoE）模型、30亿参数MoE模型及3亿参数稠密型模型

·2025-07-04 10:08

DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑

文章目录一、引言二、MoE架构：高效计算的核心支撑（一）MoE架构概述（二）DeepSeekMoE架构的创新点（三）MoE架构的代码实现示例三、RL推理：智能提升的关键驱动（一）RL推理概述（二）R1的训练流程

m0_74825409·2025-07-03 08:08

【硬核拆解】英伟达Blackwell芯片架构如何重构AI算力边界？

算力需求]-->B[千亿参数模型训练能耗>20GWh]A-->C[10万亿参数模型涌现]A-->D[传统架构内存墙：数据搬运耗能占68%]行业拐点事件：2025年3月：OpenAI宣布训练125万亿参数MoE

HeartException·2025-07-02 23:29

从文心开源谈起，论大模型发展新生态

6月30日，百度正式宣布开源ERNIE4.5即文心4.5系列模型，覆盖47B和3B激活参数的MoE（混合专家）模型，以及0.3B参数的稠密模型，并实现了预训练权重+推理代码的完全开源。

CSDN资讯·2025-07-01 10:04

GPU 分布式通信加速黑马！DeepEP 的实战与深度剖析

随着大模型和稀疏激活模型（如MoE/EP架构）的广泛应用，分布式all-to-all通信成为训练和推理过程中的核心瓶颈。

DeepLink_01·2025-07-01 10:33

MiniMax-M1 如何用 MoE 架构实现大模型推理的极致效率。

效率的胜利：MiniMaxM1如何用架构智慧挑战AI的“蛮力时代”楔子：一场必要的豪赌在人工智能的“暴力美学”时代，巨头们用无尽的参数和算力堆砌着通往未来的巴别塔。然而，在上海，一家名为MiniMax的初创公司，却选择了一条截然不同的朝圣路。2023年夏，一个看似疯狂的决定震动了观察圈：MiniMax将80%的资源，悉数押注于底层模型架构的一场革命。这并非一次寻常的技术迭代，而是在资源悬殊的牌局上

技术程序猿华锋·2025-06-27 13:03

DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑

文章目录一、引言二、MoE架构：高效计算的核心支撑（一）MoE架构概述（二）DeepSeekMoE架构的创新点（三）MoE架构的代码实现示例三、RL推理：智能提升的关键驱动（一）RL推理概述（二）R1的训练流程

泡泡Java·2025-06-27 02:13

GPT-5企业级应用落地指南：70个工业场景实战部署全景（2025）

核心解决三大落地挑战：安全合规部署方案（企业知识库隔离训练、区块链存证）、行业场景迁移（小样本领域适应、多模态提示工程）、成本效率优化（MoE稀

知识产权13937636601·2025-06-26 22:43

如何获取和使用 DeepSeek-Prover-V2？

671B稀疏MoE模型‌：需

AI生存日记·2025-06-26 21:03

揭秘DeepSeek：为何选择MoE负载均衡技术？

DeepSeek是如何做专家的负载均衡的？如果你在面试时被问到这个问题，应该怎么回答呢？01面试官心理分析从面试官的角度来看，你至少得答到下面这两个层面：第一层，为什么要做专家的负载均衡，动机是什么？第二层，DeepSeek是怎么做的，它具体有什么高明之处？好，那接下来我们就一起来分析拆解一下这道面试题目。02面试题解析首先第一点，为什么要做专家的负载均衡？这里先给大家科普一下负载均衡的概念，它实

大模型老炮·2025-06-24 13:59

DeepSeek已经落后？客观评价与深度解读爆火的DeepSeek V3大模型的性能与参数。

一个意想不到的细节是，尽管模型参数高达6710亿，但通过MoE架构，每token只激活

AI老李·2025-06-23 09:55

【AI论文】MiniMax-M1：利用Lightning注意力机制高效扩展测试时计算

MiniMax-M1采用了混合专家（Mixture-of-Experts，MoE）架构，并结合了闪电注意力（LightningAttention）机制。

东临碣石82·2025-06-22 22:44

DeepEP开源MoE模型分布式通信库

该库以Apache2.0许可证发布，代码完全开放，是全球首个专注于优化MoE（Mixture-of-Experts）模型分布式通信的高性能库。

老兵发新帖·2025-06-22 14:18

AI 大模型原理与应用：大模型训练突破万张卡和万亿参数 MOE 这两个临界点

AI大模型原理与应用：大模型训练突破万张卡和万亿参数MOE这两个临界点大模型、训练、万张卡、万亿参数、MOE、Transformer、深度学习、自然语言处理1.背景介绍近年来，深度学习技术取得了飞速发展

AI大模型应用之禅·2025-06-22 09:15

Llama 4模型卡片及提示词模板

Llama4模型卡片及提示词模板Llama4模型卡及提示格式介绍Llama4模型概述Llama4是一系列预训练和指令微调的混合专家（Mixture-of-Experts,MoE）大语言模型，包含两种规模

大模型与Agent智能体·2025-06-21 23:44

DeepSeek 大型 MoE 模型大规模部署压测学习

DeployingDeepSeekwithPDDisaggregationandLarge-ScaleExpertParallelismon96 H100GPUs》的中文总结，以及对您提到的几个术语（MLA、MoE

andyguo·2025-06-18 12:14

DeepSeek 源码解构：从 MoE 架构到 MLA 的工程化实现

在机器学习和深度学习的领域中，**MoE（MixtureofExperts）架构和MLA（Multi-LevelArchitecture）**的工程化实现已成为极具前景和挑战的技术路线。

威哥说编程·2025-06-18 02:08

深度解析DeepSeek中的MoE混合专家模式：原理、实现与应用

一、什么是混合专家（MoE）模式？想象一家医院的分诊系统：患者根据症状被分配到不同专科（心脏科、神经科、骨科等），由最擅长的医生团队联合诊治。

来自于狂人·2025-06-17 22:14

MiniMax发布MiniMax-M1推理模型，支持100万Token上下文，降低成本。

公司以创新的MoE（混合专家）架构和闪电注意力机制（LightningAttention）技术著称，先后推出支持200K上下文长度的abab6.5模型和全球首个开源混合架构推理模型MiniMax-M125

我的学校你进不来·2025-06-17 20:29

年薪百万挖人！中国大模型引爆AI人才争夺战，应届生手握5个Offer

1.技术突破点燃人才火药桶7天前，DeepSeek团队公布的MoE

AI大模型学习不迷路·2025-06-17 13:37

Moonlight-16B-A3B: 变革性的高效大语言模型，凭借Muon优化器打破训练效率极限

这款全新的Mixture-of-Experts(MoE)架构的大型语言模型，凭借其创新的训练优化技术，特别是Muon优化器的使用，成功突破了训练效率的极限，展现出强大的性能表现。

OpenCSG·2025-06-17 13:07

【2025保姆级教程】DeepSeek全场景使用指南：从避坑到高阶玩法

四大核心优势1.技术性价比革命✅混合专家架构（MoE）：仅激活370亿参数即可实现GPT-4级别性能，推理成本降低80%✅中文优化：文言文翻译准确率92.3%，远超国际开源模型✅多模态支持：支持PDF/

Lucas55555555·2025-06-17 01:15

程序员必看！DeepSeek实战指南：从入门到高阶技巧全解析

一、DeepSeek技术架构解析（程序员必懂底层逻辑）混合专家系统（MoE）架构：DeepSeek采用动态路由机制，在处理不同编程语言时自动激活对应领域的专家模型，这也是其支持

AI创享派·2025-06-16 19:09

DeepSeek全域智能革命：从量子纠缠到星际文明的认知跃迁引言：认知边界的坍缩与重构

一、认知架构的技术基石1.1混合专家系统的流形蒸馏DeepSeek-R2的MoE架构采用微分流形蒸馏技术，将6710亿参数的教师模型（如DeepSeek-Prover-V2）的知识嵌入到动态路由网络中。

feng99520·2025-06-11 07:05

基于 GQA 与 MoE 的古诗词生成模型优化 llm项目以及对应八股

目录项目项目背景个人贡献成果产出词嵌入Word2Vec两种训练方式：两种加速训练的方法：GloVe（GlobalVectorsforWordRepresentation）FastTextMHA、GQA、MLApromptengineering位置编码正余弦编码（三角式）可学习位置编码（训练式）经典相对位置编码T5相对位置编码RotaryPositionEmbedding（RoPE）attentio

许愿与你永世安宁·2025-06-09 16:27

DeepSeek API申请与使用指南：大模型训练与应用的关键一步！你学会了吗？

一、DeepSeekAPI概览DeepSeekAPI基于先进的MoE模型，支持对话生成和补全，适用于聊天机器人、虚拟助手等应用场景。

AI大模型-大飞·2025-06-06 07:10

DeepSeek 赋能医疗新生态：远程会诊智能化转型之路

目录一、引言二、智能医疗远程会诊系统概述2.1系统定义与架构2.2发展历程与现状2.3面临的挑战三、DeepSeek技术剖析3.1DeepSeek简介3.2核心技术原理3.2.1混合专家架构（MoE）3.2.2

奔跑吧邓邓子·2025-06-06 05:55

『大模型笔记』混合专家模型(Mixed Expert Models，简称 MoEs)

混合专家模型(MixedExpertModels，MoE)文章目录1.什么是混合专家模型？

AI大模型前沿研究·2025-06-06 02:42

DeepSeek、豆包、AI 材料星哪款是体制内秘书智能写作神器？

一、功能特点对比DeepSeek：推理与创作的多面手DeepSeek采用混合专家模型（MoE）和多头潜注意力（MLA）等先进技

JiCengXiaoXing·2025-06-05 15:52

华为盘古 Ultra MoE 模型：国产 AI 的技术突破与行业影响

盘古UltraMoE采用混合专家（MoE）架构，包含256个路由专家，每个任务激活8个专家协同工作，显著提升了模型的并行处理能力。为解决训练稳定性问题，华为团队提出Dep

未来智慧谷·2025-06-05 12:57

DeepSeek-V3与DeepSeek-R1架构原理及应用对比分析

架构原理对比DeepSeek-V3的混合专家架构(MoE)DeepSeek-V3采用了**混合专家模型(Mixture-

前端菜鸡日常·2025-06-04 03:47

DeepSeek赋能数据治理解决方案

DeepSeek技术架构解析混合专家模型（MoE）创新：动态专家路由：通过门控网络实现专家动态选择，提升推理效率。

公众号：优享智库·2025-06-03 13:10

DeepSeek 赋能智能客服：多轮对话策略的破局与升级

引言二、智能客服多轮对话策略现状剖析2.1多轮对话关键技术2.2现存问题与挑战三、DeepSeek技术深度解析3.1DeepSeek核心架构3.1.1Transformer架构3.1.2混合专家架构（MoE

奔跑吧邓邓子·2025-06-02 12:38

推荐频道

MoE

通义万相2.2：开启高清视频生成新纪元

大模型【进阶】（一）MoE（mixture of experts）混合专家结构

阿里开源Qwen3-Coder，编程大模型进入高效时代

AI应用 | 【AI+工业】LLM（大型语言模型）在工业领域中的十个应用

Transformer危！谷歌MoR架构发布：内存减半推理速度还翻倍

LLM指纹底层技术——混合专家模型

巅峰对决：文心4.5 vs DeepSeek R1 vs 通义Qwen3.0——国产大模型技术路线与场景能力深度横评

现代人工智能综合分类：大模型时代的架构、模态与生态系统

本地部署 Kimi K2 全指南（llama.cpp、vLLM、Docker 三法）

Kimi Chat 1.5 与 2.0 架构升级对比

大模型MoE模型技术详解

深度解码：企业级 AI 选型中 Gemini 与 DeepSeek 的架构对决

MIAOYUN | 每周AI新鲜事儿（06.27-07.04）

百度文心一言4.5震撼发布：多模态大模型开源，4240亿参数，免费商用授权

大模型的MoE架构解析：从理论到应用的系统探讨

百度文心大模型4.5开源风暴！API同步开放！

DeepSeek-V3 私有化部署配置方案（以 vLLM / FastDeploy 为主）

百度文心大模型 4.5 系列全面开源 英特尔同步支持端侧部署

DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑

【硬核拆解】英伟达Blackwell芯片架构如何重构AI算力边界？

从文心开源谈起，论大模型发展新生态

GPU 分布式通信加速黑马！DeepEP 的实战与深度剖析

MiniMax-M1 如何用 MoE 架构实现大模型推理的极致效率。

DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑

GPT-5企业级应用落地指南：70个工业场景实战部署全景（2025）

如何获取和使用 DeepSeek-Prover-V2？

揭秘DeepSeek：为何选择MoE负载均衡技术？

DeepSeek已经落后？客观评价与深度解读爆火的DeepSeek V3大模型的性能与参数。

【AI论文】MiniMax-M1：利用Lightning注意力机制高效扩展测试时计算

DeepEP开源MoE模型分布式通信库

AI 大模型原理与应用：大模型训练突破万张卡和万亿参数 MOE 这两个临界点

Llama 4模型卡片及提示词模板

DeepSeek 大型 MoE 模型大规模部署压测学习

DeepSeek 源码解构：从 MoE 架构到 MLA 的工程化实现

深度解析DeepSeek中的MoE混合专家模式：原理、实现与应用

MiniMax发布MiniMax-M1推理模型，支持100万Token上下文，降低成本。

年薪百万挖人！中国大模型引爆AI人才争夺战，应届生手握5个Offer

Moonlight-16B-A3B: 变革性的高效大语言模型，凭借Muon优化器打破训练效率极限

【2025保姆级教程】DeepSeek全场景使用指南：从避坑到高阶玩法

程序员必看！DeepSeek实战指南：从入门到高阶技巧全解析

DeepSeek全域智能革命：从量子纠缠到星际文明的认知跃迁引言：认知边界的坍缩与重构

基于 GQA 与 MoE 的古诗词生成模型优化 llm项目以及对应八股

DeepSeek API申请与使用指南：大模型训练与应用的关键一步！你学会了吗？

DeepSeek 赋能医疗新生态：远程会诊智能化转型之路

『大模型笔记』混合专家模型(Mixed Expert Models，简称 MoEs)

DeepSeek、豆包、AI 材料星 哪款是 体制内 秘书 智能写作神器？

华为盘古 Ultra MoE 模型：国产 AI 的技术突破与行业影响

DeepSeek-V3与DeepSeek-R1架构原理及应用对比分析

DeepSeek赋能数据治理解决方案

DeepSeek 赋能智能客服：多轮对话策略的破局与升级

百度文心大模型 4.5 系列全面开源英特尔同步支持端侧部署

DeepSeek、豆包、AI 材料星哪款是体制内秘书智能写作神器？