E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MoE
通义万相2.2:开启高清视频生成新纪元
一、架构革新:混合专家系统1.1
MoE
视频扩散架构通义万相2.2首次将混合专家(
MoE
)架构引入视频扩散模型,通过双专家系统实现计算效率与模型容量的平衡:classMoEVideoD
Liudef06小白
·
2025-07-29 23:47
特殊专栏
AIGC
人工智能
人工智能
通义万相2.2
图生视频
大模型【进阶】(一)
MoE
(mixture of experts)混合专家结构
什么是
MoE
结构?
MoE
(MixtureofExperts,专家混合模型)是一种深度学习模型架构,通常用于处理大规模模型和计算资源效率的挑战。
ReinaXue
·
2025-07-29 05:01
人工智能
笔记
语言模型
神经网络
阿里开源Qwen3-Coder,编程大模型进入高效时代
技术架构与性能突破Qwen3-Coder采用混合专家(
MoE
)架构,总参数量达480B,但实际激活参数仅35B,在保证性能的同时显著
未来智慧谷
·
2025-07-28 05:37
开源
Qwen3-Coder
AI应用 | 【AI+工业】LLM(大型语言模型)在工业领域中的十个应用
据报道,GPT-4甚至采用了八个与GPT-3.5规模相当的LLM,通过混合专家(
MoE
)的方式进行配置。尽管LLM在某些方面存在限制,如在过多上下文的情况下可能产生事
我爱学大模型
·
2025-07-27 17:39
人工智能
自然语言处理
ai大模型
机器学习
LLM
大语言模型
AI工业
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
超越Transformer,谷歌推出全新底层架构——Mixture-of-Recursions(MoR),注意不是
MoE
,它能推理速度提高2倍,而KV内存直接减半!
2501_92765346
·
2025-07-26 03:08
transformer
架构
深度学习
LLM指纹底层技术——混合专家模型
下面讲一下当前大模型领域最炙手可热的架构之一,也是“LLM指纹”体系中一个极其丰富的、多维度的信号来源——混合专家模型(Mixture-of-Experts,
MoE
)。
9命怪猫
·
2025-07-24 18:14
AI
深度学习
机器学习
人工智能
大模型
ai
巅峰对决:文心4.5 vs DeepSeek R1 vs 通义Qwen3.0——国产大模型技术路线与场景能力深度横评
一、技术架构:三条路径,三种哲学文心4.5:多模态原生
MoE
的“全能战士”百度2025年6月开源的文心4.5系列,采用异构多专家模型(
MoE
)架构,其核心创新在于跨模态参数共享机制。
鼓掌MVP
·
2025-07-24 15:26
人工智能
现代人工智能综合分类:大模型时代的架构、模态与生态系统
:当“更多”变为“不同”1.3自监督学习(SSL)革命第二节:大型模型的技术分类学2.1Transformer:现代人工智能的架构基石2.2架构分化:一种功能性分类2.3提升效率与规模:专家混合模型(
MoE
司南锤
·
2025-07-21 11:57
economics
人工智能
分类
数据挖掘
本地部署 Kimi K2 全指南(llama.cpp、vLLM、Docker 三法)
KimiK2是MoonshotAI于2025年7月11日发布的高性能多专家语言模型(
MoE
),支持最大128K上下文,激活参数规模为32B,具备极强的推理、代码生成与多轮对话能力。
迎风斯黄
·
2025-07-20 11:09
llama
docker
容器
kimi
Kimi Chat 1.5 与 2.0 架构升级对比
1.5版的
MoE
架构优化KimiChat1.5采用了优化后的
MoE
架构,其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径,能够根据输入数据的特性动态分配计算资源。
charles666666
·
2025-07-12 17:54
人工智能
transformer
深度学习
产品经理
chatgpt
大模型
MoE
模型技术详解
场景:大型超市的收银区域想象一下周末的超市,人山人海(就像大模型要处理海量的Token)。众多收银台(专家):超市有20个收银台,每个收银台都是一个“专家”。有的收银台是人工柜台(擅长处理现金、复杂商品、老人购物);有的是自助扫码机(适合年轻人、商品少、动作快);有的是快速通道(只允许买5件商品以下的顾客);有的是大宗商品通道(专门处理整箱饮料、大件物品)。智能引导系统(门控网络):顾客(每个To
大雷神
·
2025-07-12 10:44
AI
人工智能
机器学习
AI
大模型
深度解码:企业级 AI 选型中 Gemini 与 DeepSeek 的架构对决
开篇:技术选型会议中的认知困局当技术团队尝试评估基于
MoE
(专家混合)架构的Gemini1.5Pro和DeepSeek-V3时,决策者往往陷入认知混乱。尽管两者同属
MoE
架构,实际测试表现却大相径庭。
charles666666
·
2025-07-10 18:38
人工智能
架构
语言模型
深度学习
产品经理
机器学习
MIAOYUN | 每周AI新鲜事儿(06.27-07.04)
AI开源大模型腾讯混元发布首款开源混合推理
MoE
模型「Hunyuan-A13B」6月27日,腾讯混元宣布开源首个混合推理
MoE
模型「Hunyuan-A13B」,总参数80B,激活
·
2025-07-07 11:12
人工智能深度学习算法云计算
百度文心一言4.5震撼发布:多模态大模型开源,4240亿参数,免费商用授权
这次开源的并不是一个单一模型,而是一个完整的多模态
MoE
模型家族,包括::47B和3B的多模态
MoE
大模型,具备多模态感知和高性能通用推理能力多
·
2025-07-06 07:38
大模型的
MoE
架构解析:从理论到应用的系统探讨
从GPT-4的1.8万亿参数到DeepSeek-V3的671亿参数,
MoE
架构已成为当前AI领域最重要的技术突破之一。
不秃头de程序猿
·
2025-07-06 06:34
开发语言
转行
人工智能
ai
大模型
程序员
学习
百度文心大模型4.5开源风暴!API同步开放!
此番,百度一次性推出10款开源模型,涵盖从47B参数的混合专家(
MoE
)模型到轻量级0.3B稠密型模型,覆盖文本、多模态等多种任务需求。
程序员辣条
·
2025-07-06 04:23
产品经理
langchain
语言模型
程序员
人工智能
大模型学习
大模型
DeepSeek-V3 私有化部署配置方案(以 vLLM / FastDeploy 为主)
目标:在本地或私有服务器中部署DeepSeek-V3或其
MoE
结构变体支持高并发推理、高效资源利用提供HTTP接口供前端/插件/Agent调用方案对比方案支持
MoE
性能优化推荐场景vLLM部分支持高(KVCache
·
2025-07-06 00:55
百度文心大模型 4.5 系列全面开源 英特尔同步支持端侧部署
2025年6月30日,百度如期兑现2月14日的预告,正式开源文心大模型4.5(ERNIE4.5)系列,涵盖10款不同参数规模的模型,包括470亿参数混合专家(
MoE
)模型、30亿参数
MoE
模型及3亿参数稠密型模型
·
2025-07-04 10:08
DeepSeek打破AI天花板:
MoE
架构+RL推理,效率提升5倍的底层逻辑
文章目录一、引言二、
MoE
架构:高效计算的核心支撑(一)
MoE
架构概述(二)DeepSeekMoE架构的创新点(三)
MoE
架构的代码实现示例三、RL推理:智能提升的关键驱动(一)RL推理概述(二)R1的训练流程
m0_74825409
·
2025-07-03 08:08
面试
学习路线
阿里巴巴
人工智能
架构
【硬核拆解】英伟达Blackwell芯片架构如何重构AI算力边界?
算力需求]-->B[千亿参数模型训练能耗>20GWh]A-->C[10万亿参数模型涌现]A-->D[传统架构内存墙:数据搬运耗能占68%]行业拐点事件:2025年3月:OpenAI宣布训练125万亿参数
MoE
HeartException
·
2025-07-02 23:29
人工智能
从文心开源谈起,论大模型发展新生态
6月30日,百度正式宣布开源ERNIE4.5即文心4.5系列模型,覆盖47B和3B激活参数的
MoE
(混合专家)模型,以及0.3B参数的稠密模型,并实现了预训练权重+推理代码的完全开源。
CSDN资讯
·
2025-07-01 10:04
开源
GPU 分布式通信加速黑马!DeepEP 的实战与深度剖析
随着大模型和稀疏激活模型(如
MoE
/EP架构)的广泛应用,分布式all-to-all通信成为训练和推理过程中的核心瓶颈。
DeepLink_01
·
2025-07-01 10:33
开源项目分享
Ai
分布式
github
DeepEP
开源项目
GPU加速
MoE/EP架构
MiniMax-M1 如何用
MoE
架构实现大模型推理的极致效率。
效率的胜利:MiniMaxM1如何用架构智慧挑战AI的“蛮力时代”楔子:一场必要的豪赌在人工智能的“暴力美学”时代,巨头们用无尽的参数和算力堆砌着通往未来的巴别塔。然而,在上海,一家名为MiniMax的初创公司,却选择了一条截然不同的朝圣路。2023年夏,一个看似疯狂的决定震动了观察圈:MiniMax将80%的资源,悉数押注于底层模型架构的一场革命。这并非一次寻常的技术迭代,而是在资源悬殊的牌局上
技术程序猿华锋
·
2025-06-27 13:03
AIGC资讯
开源
架构
DeepSeek打破AI天花板:
MoE
架构+RL推理,效率提升5倍的底层逻辑
文章目录一、引言二、
MoE
架构:高效计算的核心支撑(一)
MoE
架构概述(二)DeepSeekMoE架构的创新点(三)
MoE
架构的代码实现示例三、RL推理:智能提升的关键驱动(一)RL推理概述(二)R1的训练流程
泡泡Java
·
2025-06-27 02:13
AI大模型
人工智能
架构
GPT-5企业级应用落地指南:70个工业场景实战部署全景(2025)
核心解决三大落地挑战:安全合规部署方案(企业知识库隔离训练、区块链存证)、行业场景迁移(小样本领域适应、多模态提示工程)、成本效率优化(
MoE
稀
知识产权13937636601
·
2025-06-26 22:43
计算机
GPT-5
API
如何获取和使用 DeepSeek-Prover-V2?
671B稀疏
MoE
模型:需
AI生存日记
·
2025-06-26 21:03
Open
AI大模型
开发语言
人工智能
开源
API
揭秘DeepSeek:为何选择
MoE
负载均衡技术?
DeepSeek是如何做专家的负载均衡的?如果你在面试时被问到这个问题,应该怎么回答呢?01面试官心理分析从面试官的角度来看,你至少得答到下面这两个层面:第一层,为什么要做专家的负载均衡,动机是什么?第二层,DeepSeek是怎么做的,它具体有什么高明之处?好,那接下来我们就一起来分析拆解一下这道面试题目。02面试题解析首先第一点,为什么要做专家的负载均衡?这里先给大家科普一下负载均衡的概念,它实
大模型老炮
·
2025-06-24 13:59
产品经理
人工智能
AI大模型
AIGC
大模型
大模型教程
大模型学习
DeepSeek已经落后?客观评价与深度解读爆火的DeepSeek V3大模型的性能与参数。
一个意想不到的细节是,尽管模型参数高达6710亿,但通过
MoE
架构,每token只激活
AI老李
·
2025-06-23 09:55
#深度思考
python
人工智能
人工智能
深度学习
开发语言
ai
【AI论文】MiniMax-M1:利用Lightning注意力机制高效扩展测试时计算
MiniMax-M1采用了混合专家(Mixture-of-Experts,
MoE
)架构,并结合了闪电注意力(LightningAttention)机制。
东临碣石82
·
2025-06-22 22:44
人工智能
DeepEP开源
MoE
模型分布式通信库
该库以Apache2.0许可证发布,代码完全开放,是全球首个专注于优化
MoE
(Mixture-of-Experts)模型分布式通信的高性能库。
老兵发新帖
·
2025-06-22 14:18
人工智能
AI 大模型原理与应用:大模型训练突破万张卡和万亿参数
MOE
这两个临界点
AI大模型原理与应用:大模型训练突破万张卡和万亿参数
MOE
这两个临界点大模型、训练、万张卡、万亿参数、
MOE
、Transformer、深度学习、自然语言处理1.背景介绍近年来,深度学习技术取得了飞速发展
AI大模型应用之禅
·
2025-06-22 09:15
人工智能
Llama 4模型卡片及提示词模板
Llama4模型卡片及提示词模板Llama4模型卡及提示格式介绍Llama4模型概述Llama4是一系列预训练和指令微调的混合专家(Mixture-of-Experts,
MoE
)大语言模型,包含两种规模
大模型与Agent智能体
·
2025-06-21 23:44
A2A
MCP
Llama
4
DeepSeek 大型
MoE
模型大规模部署压测学习
DeployingDeepSeekwithPDDisaggregationandLarge-ScaleExpertParallelismon96 H100GPUs》的中文总结,以及对您提到的几个术语(MLA、
MoE
andyguo
·
2025-06-18 12:14
学习
DeepSeek 源码解构:从
MoE
架构到 MLA 的工程化实现
在机器学习和深度学习的领域中,**
MoE
(MixtureofExperts)架构和MLA(Multi-LevelArchitecture)**的工程化实现已成为极具前景和挑战的技术路线。
威哥说编程
·
2025-06-18 02:08
架构
人工智能
AI编程
深度解析DeepSeek中的
MoE
混合专家模式:原理、实现与应用
一、什么是混合专家(
MoE
)模式?想象一家医院的分诊系统:患者根据症状被分配到不同专科(心脏科、神经科、骨科等),由最擅长的医生团队联合诊治。
来自于狂人
·
2025-06-17 22:14
python
chatgpt
java
算法
深度学习
人工智能
MiniMax发布MiniMax-M1推理模型,支持100万Token上下文,降低成本。
公司以创新的
MoE
(混合专家)架构和闪电注意力机制(LightningAttention)技术著称,先后推出支持200K上下文长度的abab6.5模型和全球首个开源混合架构推理模型MiniMax-M125
我的学校你进不来
·
2025-06-17 20:29
大数据
人工智能
语言模型
后端
前端
年薪百万挖人!中国大模型引爆AI人才争夺战,应届生手握5个Offer
1.技术突破点燃人才火药桶7天前,DeepSeek团队公布的
MoE
AI大模型学习不迷路
·
2025-06-17 13:37
人工智能
大语言模型
大模型
AI大模型
大模型应用
应届生
LLM
Moonlight-16B-A3B: 变革性的高效大语言模型,凭借Muon优化器打破训练效率极限
这款全新的Mixture-of-Experts(
MoE
)架构的大型语言模型,凭借其创新的训练优化技术,特别是Muon优化器的使用,成功突破了训练效率的极限,展现出强大的性能表现。
OpenCSG
·
2025-06-17 13:07
语言模型
人工智能
自然语言处理
社区
【2025保姆级教程】DeepSeek全场景使用指南:从避坑到高阶玩法
四大核心优势1.技术性价比革命✅混合专家架构(
MoE
):仅激活370亿参数即可实现GPT-4级别性能,推理成本降低80%✅中文优化:文言文翻译准确率92.3%,远超国际开源模型✅多模态支持:支持PDF/
Lucas55555555
·
2025-06-17 01:15
人工智能
#DeepSeek
#AI教程
#大模型应用
AIGC
程序员必看!DeepSeek实战指南:从入门到高阶技巧全解析
一、DeepSeek技术架构解析(程序员必懂底层逻辑)混合专家系统(
MoE
)架构:DeepSeek采用动态路由机制,在处理不同编程语言时自动激活对应领域的专家模型,这也是其支持
AI创享派
·
2025-06-16 19:09
后端
DeepSeek全域智能革命:从量子纠缠到星际文明的认知跃迁引言:认知边界的坍缩与重构
一、认知架构的技术基石1.1混合专家系统的流形蒸馏DeepSeek-R2的
MoE
架构采用微分流形蒸馏技术,将6710亿参数的教师模型(如DeepSeek-Prover-V2)的知识嵌入到动态路由网络中。
feng99520
·
2025-06-11 07:05
重构
基于 GQA 与
MoE
的古诗词生成模型优化 llm项目以及对应八股
目录项目项目背景个人贡献成果产出词嵌入Word2Vec两种训练方式:两种加速训练的方法:GloVe(GlobalVectorsforWordRepresentation)FastTextMHA、GQA、MLApromptengineering位置编码正余弦编码(三角式)可学习位置编码(训练式)经典相对位置编码T5相对位置编码RotaryPositionEmbedding(RoPE)attentio
许愿与你永世安宁
·
2025-06-09 16:27
自用大模型八股
rnn
nlp
bert
transformer
人工智能
深度学习
word2vec
DeepSeek API申请与使用指南:大模型训练与应用的关键一步!你学会了吗?
一、DeepSeekAPI概览DeepSeekAPI基于先进的
MoE
模型,支持对话生成和补全,适用于聊天机器人、虚拟助手等应用场景。
AI大模型-大飞
·
2025-06-06 07:10
人工智能
LLM
大模型
知识图谱
AI
DeepSeek
大模型训练
DeepSeek 赋能医疗新生态:远程会诊智能化转型之路
目录一、引言二、智能医疗远程会诊系统概述2.1系统定义与架构2.2发展历程与现状2.3面临的挑战三、DeepSeek技术剖析3.1DeepSeek简介3.2核心技术原理3.2.1混合专家架构(
MoE
)3.2.2
奔跑吧邓邓子
·
2025-06-06 05:55
DeepSeek
实战
DeepSeek
智能医疗
远程会诊
应用
人工智能
『大模型笔记』混合专家模型(Mixed Expert Models,简称 MoEs)
混合专家模型(MixedExpertModels,
MoE
)文章目录1.什么是混合专家模型?
AI大模型前沿研究
·
2025-06-06 02:42
大模型笔记
OpenAI
gpt
MoE
混合专家模型
LLMs
DeepSeek、豆包、AI 材料星 哪款是 体制内 秘书 智能写作神器?
一、功能特点对比DeepSeek:推理与创作的多面手DeepSeek采用混合专家模型(
MoE
)和多头潜注意力(MLA)等先进技
JiCengXiaoXing
·
2025-06-05 15:52
人工智能
AI写作
华为盘古 Ultra
MoE
模型:国产 AI 的技术突破与行业影响
盘古UltraMoE采用混合专家(
MoE
)架构,包含256个路由专家,每个任务激活8个专家协同工作,显著提升了模型的并行处理能力。为解决训练稳定性问题,华为团队提出Dep
未来智慧谷
·
2025-06-05 12:57
华为
人工智能
DeepSeek-V3与DeepSeek-R1架构原理及应用对比分析
架构原理对比DeepSeek-V3的混合专家架构(
MoE
)DeepSeek-V3采用了**混合专家模型(Mixture-
前端菜鸡日常
·
2025-06-04 03:47
AI
deepSeek
架构
人工智能
DeepSeek赋能数据治理解决方案
DeepSeek技术架构解析混合专家模型(
MoE
)创新:动态专家路由:通过门控网络实现专家动态选择,提升推理效率。
公众号:优享智库
·
2025-06-03 13:10
DEEPSEEK
AI人工智能
流程管理
战略管理
人力资源
财务管理
数字化转型
数据治理
主数据
数据仓库
人工智能
大数据
系统架构
架构
DeepSeek 赋能智能客服:多轮对话策略的破局与升级
引言二、智能客服多轮对话策略现状剖析2.1多轮对话关键技术2.2现存问题与挑战三、DeepSeek技术深度解析3.1DeepSeek核心架构3.1.1Transformer架构3.1.2混合专家架构(
MoE
奔跑吧邓邓子
·
2025-06-02 12:38
DeepSeek
实战
DeepSeek
智能客服
多轮对话
应用
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他