MoE 第5页

开源模型应用落地-Qwen1.5-MoE-1/3的激活参数量达到7B模型的性能

一、前言2024.03.28阿里推出Qwen系列的首个MoE模型，Qwen1.5-MoE-A2.7B。

开源技术探险家·2025-02-25 07:55

DeepSeek 和 Qwen 模型快速部署指南

导读：DeepSeek-V3&DeepSeek-R1模型对比特性DeepSeek-V3DeepSeek-R1模型大小总参数量6710亿(671B),MoE架构,每个token激活370亿参数总参数量与V3

moton2017·2025-02-24 18:47

ChatGLM-6B中英双语对话大模型Windows本地部署实战

公司于2020年底研发GLM预训练架构，2021年训练完成百亿参数模型GLM-10B，利用MoE架构成功训练出收敛的万亿稀疏模型，2

ErbaoLiu·2025-02-24 13:45

LLM的MoE架构的“动态路由”为什么能训练出来？

互联网各领域资料分享专区(不定期更新)：Sheet正文大型语言模型（MoE）架构中的“动态路由”之所以能够被有效训练，关键在于其设计融合了可微分的路由机制、专家协同优化以及负载均衡约束。

互联网之路.·2025-02-24 09:46

将混合专家（Mixture of Experts, MoE）路由机制引入时序预测方向的思路的拆解和优化建议

from=from_copylink现有方法与MoE的对比分析传统分解方法（如季节-趋势分解

放空儿·2025-02-23 22:00

深度学习革命背后：DBN、AlexNet、GAN 等神级架构，究竟藏着怎样的 AI 崛起密码？（附deepseek）

**混合专家架构（MoE）**2.**多头潜在注意力（MLA）**3.*

universe_code·2025-02-23 15:35

探秘 DeepSeek-V3：低成本训练铸就的 AI 大模型传奇

DeepSeek-V3：横空出世的AI新贵DeepSeek-V3是杭州深度求索人工智能基础技术研究有限公司于2024年12月26日重磅发布的混合专家（MoE）语言模型。一经推出，便在知识类任务、算

道亦无名·2025-02-23 15:34

DeepSeek核心技术 MoE（混合专家模型）

下图说明了DeepSeek-V3的基本架构。在DeepSeek-V2的基础上，采用MLA（多头潜在注意力）和DeepSeekMoE进行高效的推理和经济的训练。

baiyi666_888·2025-02-23 01:22

大模型量化概述

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。

AI领航者·2025-02-22 04:02

第一篇：从技术架构视角解析DeepSeek的AI底层逻辑

1.模块化架构：MoE模型的场景适应性突破DeepSeek采用混合专家模型（MixtureofExperts）的变体设计，在千亿参数规模下实现动态任务分配。通过引入「稀疏激活

python算法(魔法师版)·2025-02-22 00:18

DeepSeek混合专家模型：低成本高精度革新多语言AI应用

内容概要当前人工智能领域正经历从通用模型向垂直化、场景化应用的关键转型，DeepSeek混合专家模型（MoE）通过突破性的架构设计，为这一进程提供了技术范本。

智能计算研究中心·2025-02-20 22:01

PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！

DeepSeekR1采用6710亿参数的MoE（

AI云极·2025-02-20 15:00

DeepSeek与ChatGPT：AI语言模型的全面对决

以下从六大维度展开全面对比，为不同需求场景提供选择参考：一、核心技术对比维度DeepSeekChatGPT架构设计混合专家系统（MoE）+自研深度优化架构Transformer架构（GPT-3.5/4系列

金枝玉叶9·2025-02-20 12:01

《DeepSeek-R1 vs ChatGPT-4：AI大模型“王座争夺战”的终极拆解报告》

一、核心技术架构：差异化路线对决对比维度DeepSeek-R1ChatGPT-4模型架构多模态混合专家模型（MoE+Transformer）纯Dec

Athena-H·2025-02-20 10:08

DeepSeek接入大数据能做什么

AI大模型技术的公司，在大数据领域可以通过以下方式切入，结合其核心能力提供创新解决方案：一、DeepSeek接入大数据领域的技术路径多模态数据处理能力支持文本/图像/视频/传感器数据的统一处理自主研发的MoE

PersistDZ·2025-02-19 22:59

（1-2）DeepSeek概述：DeepSeek的架构概览

采用了混合专家（Mixture-of-Experts,MoE）架构，通过稀疏激活提升模型效率。此外，DeepSeek引入了动态路由网络，智能地调配计算资源，以高效处理长文本和复杂逻辑任务。

码农三叔·2025-02-19 15:59

DeepSeek-V3的混合专家（MoE）架构

DeepSeek-V3的混合专家（MoE）架构具有多方面的创新设计，以下是详细介绍：架构原理模块构成：MoE架构核心是在前馈网络（FFN）中采用专家混合模型。

阿湯哥·2025-02-19 11:25

DeepSeek与ChatGPT：AI语言模型的全面对决

以下从多个维度对两者进行对比分析：一、技术路线与核心优势DeepSeek：算法创新与成本优化混合专家模型（MoE）与MLA技术：DeepSeek采用混合专家模型框架，通过动态选择专家模型处理复杂任务，结合多头潜在注意力机制

芯作者·2025-02-19 08:38

DeepSeek的无限可能：探索前沿AI技术在多领域的应用

第一章技术底座：重构AI核心范式1.1MoE架构的颠覆性创新传统Transformer模型面临参数爆炸与能耗困境，Deep

编码追梦人·2025-02-18 20:10

DeepSeek：国产AI的荣耀之光

一、技术突破：创新与高效并存1.混合专家架构（MoE）DeepSeek-V3采用了自主研发的混合专家架构（MoE），模型参数高达6710亿，激活参数为370

晚风る·2025-02-18 13:22

DeepSeek对AI领域的变革性影响分析报告

二、技术突破：算法效率与成本革命架构创新：MOE与MLA技术优化DeepSeek采用混合专家系统（MoE

芝士AI吃鱼·2025-02-18 05:57

DeepSeek推理模型架构以及DeepSeek爆火的原因

大家好，我是微学AI，今天给大家介绍一下DeepSeek推理模型架构以及DeepSeek爆火的原因，DeepSeek推理模型凭借其创新的混合专家（MoE）架构和优化的Transformer架构，融合稀疏注意力机制

微学AI·2025-02-18 03:06

论deepseek软件底层原理

DeepSeek软件底层原理剖析一、核心架构基石（一）混合专家架构（MoE）架构本质：MoE架构模拟人类专家协作模式，构建一个专家集合。每个专家模块专门负责特定类型或领域知识的处理。

星糖曙光·2025-02-17 13:49

DeepSeek 混合专家（MoE）架构技术原理剖析

DeepSeek混合专家（MoE）架构技术原理剖析在人工智能快速发展的当下，大规模语言模型不断突破创新，DeepSeek混合专家（MoE）架构脱颖而出，成为业内关注焦点。

计算机学长·2025-02-17 13:15

AI大模型的技术突破与传媒行业变革

这一突破的核心在于三大技术创新：MoE架构升级：通过部署256个细粒度专家网络，减少知识冗余，提升模型效率；MLA注意力机制：动态压缩推理过程中的缓存需求，降低GPU内存

AIQL·2025-02-17 07:52

Deepseek详细的自我介绍

研发理念聚焦三个核心：-**高效性**：通过模型架构创新（如MoE）实现“小参数量，大性能”。-**可控性**：内置可解释性模块

welcome_123_·2025-02-16 16:06

（15-3）DeepSeek混合专家模型初探：模型微调

3.4模型微调在本项目中，微调脚本文件finetune.py提供了一套全面的工具，用于对DeepSeek-MoE预训练语言模型进行微调。

码农三叔·2025-02-16 16:35

deepseek与gpt，核心原理对比

一、模型架构DeepSeek混合专家（MoE）框架：DeepSeek采用了混合专家框架，其内部包含多个“专家”子模块，每个子模块专注于不同的任务或数据领域。

test猿·2025-02-16 04:30

开源大模型性能追平闭源模型技术路径分析

（预测实现时间：2025Q2）开源模型进化路径MoE架构稀疏训练分布式RLHF2024突破2023现状2025超越性能反超一、现状对比与瓶颈分析（2024Q3）1.核心差距量化指标能力维度闭源模型均值开源模型均值差距比例复杂推理

Mr' 郑·2025-02-15 20:05

超火的Deepseek的MOE架构是什么?

DeepSeek的MOE（MixtureofExperts，混合专家）架构是一种基于专家模型（MixtureofExperts）的深度学习框架，旨在通过动态选择和激活部分专家模块来提高计算效率和模型性能

魔王阿卡纳兹·2025-02-15 07:51

大语言模型原理基础与前沿通过稀疏MoE扩展视觉语言模型

大语言模型原理基础与前沿通过稀疏MoE扩展视觉语言模型1.背景介绍在人工智能领域，语言模型和视觉模型的结合已经成为一个重要的研究方向。

AI天才研究院·2025-02-14 12:52

Deepseek的MOE架构中ColumnParallelLinear()是怎么实现的

在MoE中，每个专家可能是一个这样的并行层，然后通过门控机制将输入路由到不同的专家。接下来，我需要思考ColumnParallelLinear的具体实现。

DukeYong·2025-02-13 18:00

100.10 AI量化面试题：AI大模型中的MOE架构主要类型，和DeepSeek使用了哪一种类型？

目录0.承前1.解题思路1.1基础概念维度1.2架构对比维度1.3实践应用维度2.标准MOE架构2.1基本概念3.稀疏MOE架构3.1实现原理4.共享专家稀疏MOE架构4.1核心设计5.架构对比5.1主要特点对比

AI量金术师·2025-02-13 18:00

大模型笔记：pytorch实现MOE

0导入库importtorchimporttorch.nnasnnimporttorch.nn.functionalasF1专家模型#一个简单的专家模型，可以是任何神经网络架构classExpert(nn.Module):def__init__(self,input_size,output_size):super(Expert,self).__init__()self.fc=nn.Linear(i

UQI-LIUWJ·2025-02-12 23:37

最通俗易懂的方式，由浅入深地讲讲DeepSeek（深度求索）

它最核心的产品是大语言模型（你可以理解为"超级聊天机器人"），比如DeepSeek-R1、DeepSeek-MoE等。

Jing_saveSlave·2025-02-12 19:07

DeepSeek-V3：模型与权重全面解析

DeepSeek-V3是一款开创性的混合专家（Mixture-of-Experts,MoE）语言模型，以其创新的架构设计、高效的训练方法和卓越的性能，成为开源大语言模型领域的标杆。

步子哥·2025-02-12 11:13

DeepSeek V3 两周使用总结

官方宣称：（1）基于自研的MoE模型和671B参数，在14.8Ttoken上进行了预训练；（2）多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405

AI生成曾小健·2025-02-12 11:12

DeepSeek-MoE-16b：高效稀疏架构引领大模型降本增效革命

一、模型定位与技术背景DeepSeek-MoE-16b是深度求索（DeepSeek）研发的混合专家模型（MixtureofExperts,MoE），参数规模160亿，旨在通过稀疏化计算架构解决传统稠密模型

热爱分享的博士僧·2025-02-11 18:36

云上一键部署 DeepSeek-V3 模型，阿里云PAI Model Gallery 最佳实践

DeepSeek-V3模型简介DeepSeek-V3是DeepSeek发布的MoE（Mixture-of-Experts）大语言模型，总参数量为6710亿，每个token激活的参数量为370亿。

·2025-02-11 11:44

DeepSeek-v3笔记(1)

v3链接直接从第二章Architecture开始2.1BasicArchitecture基本方法就是v2的那一套，仍然是moe架构，采用MLA降显存，常驻专家和路由专家的混合使用。

蒸土豆的技术细节·2025-02-11 09:06

【AI学习】DeepSeek为什么强？

MoE、MLA这些？或许有一点

bylander·2025-02-11 03:17

DeepSeek和ChatGPT的优劣或者区别（答案来DeepSeek和ChatGPT）

的答案DeepSeek与ChatGPT作为当前两大主流AI模型，在架构设计、性能表现、应用场景等方面存在显著差异，以下从多个维度进行对比分析：一、架构与训练效率架构设计DeepSeek：采用混合专家（MoE

笑傲江湖2023·2025-02-10 12:45

MoE揭秘

众所周不知，2025年春节爆火的DeepSeek用了MoE架构，本人才疏学浅，想从技术角度深入讲解MoE（混合专家系统）的各个方面，包括数据准备、训练、部署、调用时的专家调度、缓存机制等，同时扩展一些相关的技术细节和实际工程中的挑战与解决方案

9命怪猫·2025-02-09 23:21

DeepSeek：全栈开发者视角下的AI革命者

目录DeepSeek：全栈开发者视角下的AI革命者前言一、DeepSeek的诞生与定位二、DeepSeek技术架构的颠覆性突破1、解构算力霸权：从MoE架构到内存革命2、多模态扩展的技术纵深3、算法范式的升维重构

北海屿鹿·2025-02-09 13:44

混合专家模型 (MoE) 最全详细图解

随着Mixtral8x7B(announcement,modelcard)的推出，一种称为混合专家模型(MixedExpertModels，简称MoEs)的Transformer模型在开源人工智能社区引起了广泛关注。在本篇博文中，我们将深入探讨MoEs的核心组件、训练方法，以及在推理过程中需要考量的各种因素简短总结混合专家模型(MoEs):与稠密模型相比，预训练速度更快与具有相同参数数量的模型相比

DFCED·2025-02-09 10:23

DeepSeek-V3 技术报告（核心技术，接近5万字）

摘要我们介绍了一个强大的混合专家（MoE）语言模型DeepSeek-V3，它具有总计671亿个参数和每个令牌激活的37亿个。

zhangjiaofa·2025-02-09 10:21

DeepSeek模型全解析：赋能人工智能新纪元

以下是对DeepSeek模型的详尽剖析：一、模型概览DeepSeek，源自一家中国AI初创公司，其最新版本DeepSeek-V3是一款基于先进的Mixture-of-Experts（MoE）架构的语言模型

云梦优选·2025-02-08 23:01

DeepSeek MoE 项目教程

DeepSeekMoE项目教程DeepSeek-MoE项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-MoE1、项目介绍DeepSeekMoE是一个基于Mixture-of-Experts

姬牧格Ivy·2025-02-08 10:59

大模型的训练与应用 | 二十二、DeepSeek API 申请与使用指南

一、DeepSeekAPI概览DeepSeekAPI基于先进的MoE模型，支持对话生成和补全，适用于聊天机器人、虚拟助手等应用场景。

西琴小竹·2025-02-08 06:50

DeepSeek为什么采用与主流大模型不一样的MoE架构？一文搞懂什么是MoE模型

在DeepSeek官网上看到，DeepSeek-V3、V2.5版本都用了MoE架构。但像Qwen、LLama模型，用的却是Dense架构，也就是传统的Transformer架构。

大模型_学习路线·2025-02-08 04:39

推荐频道

MoE

开源模型应用落地-Qwen1.5-MoE-1/3的激活参数量达到7B模型的性能

DeepSeek 和 Qwen 模型快速部署指南

ChatGLM-6B中英双语对话大模型Windows本地部署实战

LLM的MoE架构的“动态路由”为什么能训练出来？

将混合专家（Mixture of Experts, MoE）路由机制引入时序预测方向的思路的拆解和优化建议

深度学习革命背后：DBN、AlexNet、GAN 等神级架构，究竟藏着怎样的 AI 崛起密码？（附deepseek）

探秘 DeepSeek-V3：低成本训练铸就的 AI 大模型传奇

DeepSeek核心技术 MoE（混合专家模型）

大模型量化概述

第一篇：从技术架构视角解析DeepSeek的AI底层逻辑

DeepSeek混合专家模型：低成本高精度革新多语言AI应用

PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！

DeepSeek与ChatGPT：AI语言模型的全面对决

《DeepSeek-R1 vs ChatGPT-4：AI大模型“王座争夺战”的终极拆解报告》

DeepSeek接入大数据能做什么

（1-2）DeepSeek概述：DeepSeek的架构概览

DeepSeek-V3的混合专家（MoE）架构

DeepSeek与ChatGPT：AI语言模型的全面对决

DeepSeek的无限可能：探索前沿AI技术在多领域的应用

DeepSeek：国产AI的荣耀之光

DeepSeek对AI领域的变革性影响分析报告

DeepSeek推理模型架构以及DeepSeek爆火的原因

论deepseek软件底层原理

DeepSeek 混合专家（MoE）架构技术原理剖析

AI大模型的技术突破与传媒行业变革

Deepseek详细的自我介绍

（15-3）DeepSeek混合专家模型初探：模型微调

deepseek与gpt，核心原理对比

开源大模型性能追平闭源模型技术路径分析

超火的Deepseek的MOE架构是什么?

大语言模型原理基础与前沿 通过稀疏MoE扩展视觉语言模型

Deepseek的MOE架构中ColumnParallelLinear()是怎么实现的

100.10 AI量化面试题：AI大模型中的MOE架构主要类型，和DeepSeek使用了哪一种类型？

大模型笔记：pytorch实现MOE

最通俗易懂的方式，由浅入深地讲讲DeepSeek（深度求索）

DeepSeek-V3：模型与权重全面解析

DeepSeek V3 两周使用总结

DeepSeek-MoE-16b：高效稀疏架构引领大模型降本增效革命

云上一键部署 DeepSeek-V3 模型，阿里云PAI Model Gallery 最佳实践

DeepSeek-v3笔记(1)

【AI学习】DeepSeek为什么强？

DeepSeek和ChatGPT的优劣或者区别（答案来DeepSeek和ChatGPT）

MoE揭秘

DeepSeek：全栈开发者视角下的AI革命者

混合专家模型 (MoE) 最全详细图解

DeepSeek-V3 技术报告 （核心技术，接近5万字）

DeepSeek模型全解析：赋能人工智能新纪元

DeepSeek MoE 项目教程

大模型的训练与应用 | 二十二、DeepSeek API 申请与使用指南

DeepSeek为什么采用与主流大模型不一样的MoE架构？一文搞懂什么是MoE模型

大语言模型原理基础与前沿通过稀疏MoE扩展视觉语言模型

DeepSeek-V3 技术报告（核心技术，接近5万字）