E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MoE
开源模型应用落地-Qwen1.5-
MoE
-1/3的激活参数量达到7B模型的性能
一、前言2024.03.28阿里推出Qwen系列的首个
MoE
模型,Qwen1.5-
MoE
-A2.7B。
开源技术探险家
·
2025-02-25 07:55
开源模型-实际应用落地
#
深度学习
语言模型
自然语言处理
DeepSeek 和 Qwen 模型快速部署指南
导读:DeepSeek-V3&DeepSeek-R1模型对比特性DeepSeek-V3DeepSeek-R1模型大小总参数量6710亿(671B),
MoE
架构,每个token激活370亿参数总参数量与V3
moton2017
·
2025-02-24 18:47
深度学习
运维
模型部署
DeepSeek
Qwen
大型语言模型
LLM
人工智能
AI
ChatGLM-6B中英双语对话大模型Windows本地部署实战
公司于2020年底研发GLM预训练架构,2021年训练完成百亿参数模型GLM-10B,利用
MoE
架构成功训练出收敛的万亿稀疏模型,2
ErbaoLiu
·
2025-02-24 13:45
数据分析&大模型
自然语言处理&大模型
机器学习&大模型
ChatGLM
ChatGLM-6B
中英双语对话语言模型
LLM
大模型
GPT
聊天机器人
LLM的
MoE
架构的“动态路由”为什么能训练出来?
互联网各领域资料分享专区(不定期更新):Sheet正文大型语言模型(
MoE
)架构中的“动态路由”之所以能够被有效训练,关键在于其设计融合了可微分的路由机制、专家协同优化以及负载均衡约束。
互联网之路.
·
2025-02-24 09:46
知识点
架构
将混合专家(Mixture of Experts,
MoE
)路由机制引入时序预测方向的思路的拆解和优化建议
from=from_copylink现有方法与
MoE
的对比分析传统分解方法(如季节-趋势分解
放空儿
·
2025-02-23 22:00
笔记
深度学习
时间序列预测
idea讨论
深度学习革命背后:DBN、AlexNet、GAN 等神级架构,究竟藏着怎样的 AI 崛起密码?(附deepseek)
**混合专家架构(
MoE
)**2.**多头潜在注意力(MLA)**3.*
universe_code
·
2025-02-23 15:35
人工智能
python
深度学习
经验分享
探秘 DeepSeek-V3:低成本训练铸就的 AI 大模型传奇
DeepSeek-V3:横空出世的AI新贵DeepSeek-V3是杭州深度求索人工智能基础技术研究有限公司于2024年12月26日重磅发布的混合专家(
MoE
)语言模型。一经推出,便在知识类任务、算
道亦无名
·
2025-02-23 15:34
人工智能
DeepSeek核心技术
MoE
(混合专家模型)
下图说明了DeepSeek-V3的基本架构。在DeepSeek-V2的基础上,采用MLA(多头潜在注意力)和DeepSeekMoE进行高效的推理和经济的训练。
baiyi666_888
·
2025-02-23 01:22
ai
大模型量化概述
近年来,随着Transformer、
MOE
架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。
AI领航者
·
2025-02-22 04:02
人工智能
ai
大模型
第一篇:从技术架构视角解析DeepSeek的AI底层逻辑
1.模块化架构:
MoE
模型的场景适应性突破DeepSeek采用混合专家模型(MixtureofExperts)的变体设计,在千亿参数规模下实现动态任务分配。通过引入「稀疏激活
python算法(魔法师版)
·
2025-02-22 00:18
deepseek专栏
架构
人工智能
DeepSeek混合专家模型:低成本高精度革新多语言AI应用
内容概要当前人工智能领域正经历从通用模型向垂直化、场景化应用的关键转型,DeepSeek混合专家模型(
MoE
)通过突破性的架构设计,为这一进程提供了技术范本。
智能计算研究中心
·
2025-02-20 22:01
其他
PyCharm 集成 DeepSeek:本地运行 or API 直连?打造你的 AI 编程神器!
DeepSeekR1采用6710亿参数的
MoE
(
AI云极
·
2025-02-20 15:00
【AI智能系列】
pycharm
人工智能
ide
deepseek
DeepSeek与ChatGPT:AI语言模型的全面对决
以下从六大维度展开全面对比,为不同需求场景提供选择参考:一、核心技术对比维度DeepSeekChatGPT架构设计混合专家系统(
MoE
)+自研深度优化架构Transformer架构(GPT-3.5/4系列
金枝玉叶9
·
2025-02-20 12:01
程序员知识储备1
程序员知识储备2
程序员知识储备3
chatgpt
人工智能
语言模型
《DeepSeek-R1 vs ChatGPT-4:AI大模型“王座争夺战”的终极拆解报告》
一、核心技术架构:差异化路线对决对比维度DeepSeek-R1ChatGPT-4模型架构多模态混合专家模型(
MoE
+Transformer)纯Dec
Athena-H
·
2025-02-20 10:08
LLM
人工智能
gpt
chatgpt
ai
DeepSeek接入大数据能做什么
AI大模型技术的公司,在大数据领域可以通过以下方式切入,结合其核心能力提供创新解决方案:一、DeepSeek接入大数据领域的技术路径多模态数据处理能力支持文本/图像/视频/传感器数据的统一处理自主研发的
MoE
PersistDZ
·
2025-02-19 22:59
大数据与AI
大数据
(1-2)DeepSeek概述:DeepSeek的架构概览
采用了混合专家(Mixture-of-Experts,
MoE
)架构,通过稀疏激活提升模型效率。此外,DeepSeek引入了动态路由网络,智能地调配计算资源,以高效处理长文本和复杂逻辑任务。
码农三叔
·
2025-02-19 15:59
架构
transformer
深度学习
大模型
DeepSeek-V3的混合专家(
MoE
)架构
DeepSeek-V3的混合专家(
MoE
)架构具有多方面的创新设计,以下是详细介绍:架构原理模块构成:
MoE
架构核心是在前馈网络(FFN)中采用专家混合模型。
阿湯哥
·
2025-02-19 11:25
架构
微服务
云原生
DeepSeek与ChatGPT:AI语言模型的全面对决
以下从多个维度对两者进行对比分析:一、技术路线与核心优势DeepSeek:算法创新与成本优化混合专家模型(
MoE
)与MLA技术:DeepSeek采用混合专家模型框架,通过动态选择专家模型处理复杂任务,结合多头潜在注意力机制
芯作者
·
2025-02-19 08:38
DD:日记
人工智能
自然语言处理
DeepSeek的无限可能:探索前沿AI技术在多领域的应用
第一章技术底座:重构AI核心范式1.1
MoE
架构的颠覆性创新传统Transformer模型面临参数爆炸与能耗困境,Deep
编码追梦人
·
2025-02-18 20:10
AI人工智能
人工智能
DeepSeek:国产AI的荣耀之光
一、技术突破:创新与高效并存1.混合专家架构(
MoE
)DeepSeek-V3采用了自主研发的混合专家架构(
MoE
),模型参数高达6710亿,激活参数为370
晚风る
·
2025-02-18 13:22
AI人工智能
人工智能
DeepSeek对AI领域的变革性影响分析报告
二、技术突破:算法效率与成本革命架构创新:
MOE
与MLA技术优化DeepSeek采用混合专家系统(
MoE
芝士AI吃鱼
·
2025-02-18 05:57
人工智能
DeepSeek
OpenAI
DeepSeek推理模型架构以及DeepSeek爆火的原因
大家好,我是微学AI,今天给大家介绍一下DeepSeek推理模型架构以及DeepSeek爆火的原因,DeepSeek推理模型凭借其创新的混合专家(
MoE
)架构和优化的Transformer架构,融合稀疏注意力机制
微学AI
·
2025-02-18 03:06
架构
LLM
deepseek
论deepseek软件底层原理
DeepSeek软件底层原理剖析一、核心架构基石(一)混合专家架构(
MoE
)架构本质:
MoE
架构模拟人类专家协作模式,构建一个专家集合。每个专家模块专门负责特定类型或领域知识的处理。
星糖曙光
·
2025-02-17 13:49
磨刀不误砍柴工(工具重要性)
AI作画
经验分享
人工智能
笔记
DeepSeek 混合专家(
MoE
)架构技术原理剖析
DeepSeek混合专家(
MoE
)架构技术原理剖析在人工智能快速发展的当下,大规模语言模型不断突破创新,DeepSeek混合专家(
MoE
)架构脱颖而出,成为业内关注焦点。
计算机学长
·
2025-02-17 13:15
通用大语言模型
人工智能
架构
AI大模型的技术突破与传媒行业变革
这一突破的核心在于三大技术创新:
MoE
架构升级:通过部署256个细粒度专家网络,减少知识冗余,提升模型效率;MLA注意力机制:动态压缩推理过程中的缓存需求,降低GPU内存
AIQL
·
2025-02-17 07:52
行业分析
人工智能
传媒
Deepseek详细的自我介绍
研发理念聚焦三个核心:-**高效性**:通过模型架构创新(如
MoE
)实现“小参数量,大性能”。-**可控性**:内置可解释性模块
welcome_123_
·
2025-02-16 16:06
人工智能
(15-3)DeepSeek混合专家模型初探:模型微调
3.4模型微调在本项目中,微调脚本文件finetune.py提供了一套全面的工具,用于对DeepSeek-
MoE
预训练语言模型进行微调。
码农三叔
·
2025-02-16 16:35
训练
RAG
多模态)
人工智能
Deekseep
深度学习
大模型
transformer
deepseek与gpt,核心原理对比
一、模型架构DeepSeek混合专家(
MoE
)框架:DeepSeek采用了混合专家框架,其内部包含多个“专家”子模块,每个子模块专注于不同的任务或数据领域。
test猿
·
2025-02-16 04:30
gpt
开源大模型性能追平闭源模型技术路径分析
(预测实现时间:2025Q2)开源模型进化路径
MoE
架构稀疏训练分布式RLHF2024突破2023现状2025超越性能反超一、现状对比与瓶颈分析(2024Q3)1.核心差距量化指标能力维度闭源模型均值开源模型均值差距比例复杂推理
Mr' 郑
·
2025-02-15 20:05
开源
超火的Deepseek的
MOE
架构是什么?
DeepSeek的
MOE
(MixtureofExperts,混合专家)架构是一种基于专家模型(MixtureofExperts)的深度学习框架,旨在通过动态选择和激活部分专家模块来提高计算效率和模型性能
魔王阿卡纳兹
·
2025-02-15 07:51
大模型知识札记
架构
DeepSeek
MoE
大模型
大语言模型原理基础与前沿 通过稀疏
MoE
扩展视觉语言模型
大语言模型原理基础与前沿通过稀疏
MoE
扩展视觉语言模型1.背景介绍在人工智能领域,语言模型和视觉模型的结合已经成为一个重要的研究方向。
AI天才研究院
·
2025-02-14 12:52
DeepSeek
R1
&
大数据AI人工智能大模型
AI大模型企业级应用开发实战
AI大模型应用入门实战与进阶
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
Deepseek的
MOE
架构中ColumnParallelLinear()是怎么实现的
在
MoE
中,每个专家可能是一个这样的并行层,然后通过门控机制将输入路由到不同的专家。接下来,我需要思考ColumnParallelLinear的具体实现。
DukeYong
·
2025-02-13 18:00
架构
100.10 AI量化面试题:AI大模型中的
MOE
架构主要类型,和DeepSeek使用了哪一种类型?
目录0.承前1.解题思路1.1基础概念维度1.2架构对比维度1.3实践应用维度2.标准
MOE
架构2.1基本概念3.稀疏
MOE
架构3.1实现原理4.共享专家稀疏
MOE
架构4.1核心设计5.架构对比5.1主要特点对比
AI量金术师
·
2025-02-13 18:00
金融资产组合模型进化论
人工智能
架构
金融
lstm
python
机器学习
大模型笔记:pytorch实现
MOE
0导入库importtorchimporttorch.nnasnnimporttorch.nn.functionalasF1专家模型#一个简单的专家模型,可以是任何神经网络架构classExpert(nn.Module):def__init__(self,input_size,output_size):super(Expert,self).__init__()self.fc=nn.Linear(i
UQI-LIUWJ
·
2025-02-12 23:37
pytorch学习
笔记
pytorch
人工智能
最通俗易懂的方式,由浅入深地讲讲DeepSeek(深度求索)
它最核心的产品是大语言模型(你可以理解为"超级聊天机器人"),比如DeepSeek-R1、DeepSeek-
MoE
等。
Jing_saveSlave
·
2025-02-12 19:07
AI
ai
chatgpt
AI编程
DeepSeek-V3:模型与权重全面解析
DeepSeek-V3是一款开创性的混合专家(Mixture-of-Experts,
MoE
)语言模型,以其创新的架构设计、高效的训练方法和卓越的性能,成为开源大语言模型领域的标杆。
步子哥
·
2025-02-12 11:13
AGI通用人工智能
人工智能
DeepSeek V3 两周使用总结
官方宣称:(1)基于自研的
MoE
模型和671B参数,在14.8Ttoken上进行了预训练;(2)多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405
AI生成曾小健
·
2025-02-12 11:12
LLM大语言模型
Deepseek原理与使用
人工智能
DeepSeek-
MoE
-16b:高效稀疏架构引领大模型降本增效革命
一、模型定位与技术背景DeepSeek-
MoE
-16b是深度求索(DeepSeek)研发的混合专家模型(MixtureofExperts,
MoE
),参数规模160亿,旨在通过稀疏化计算架构解决传统稠密模型
热爱分享的博士僧
·
2025-02-11 18:36
架构
云上一键部署 DeepSeek-V3 模型,阿里云PAI Model Gallery 最佳实践
DeepSeek-V3模型简介DeepSeek-V3是DeepSeek发布的
MoE
(Mixture-of-Experts)大语言模型,总参数量为6710亿,每个token激活的参数量为370亿。
·
2025-02-11 11:44
DeepSeek-v3笔记(1)
v3链接直接从第二章Architecture开始2.1BasicArchitecture基本方法就是v2的那一套,仍然是
moe
架构,采用MLA降显存,常驻专家和路由专家的混合使用。
蒸土豆的技术细节
·
2025-02-11 09:06
笔记
【AI学习】DeepSeek为什么强?
MoE
、MLA这些?或许有一点
bylander
·
2025-02-11 03:17
AI学习
人工智能
学习
gpt
DeepSeek和ChatGPT的优劣或者区别(答案来DeepSeek和ChatGPT)
的答案DeepSeek与ChatGPT作为当前两大主流AI模型,在架构设计、性能表现、应用场景等方面存在显著差异,以下从多个维度进行对比分析:一、架构与训练效率架构设计DeepSeek:采用混合专家(
MoE
笑傲江湖2023
·
2025-02-10 12:45
chatgpt
人工智能
MoE
揭秘
众所周不知,2025年春节爆火的DeepSeek用了
MoE
架构,本人才疏学浅,想从技术角度深入讲解
MoE
(混合专家系统)的各个方面,包括数据准备、训练、部署、调用时的专家调度、缓存机制等,同时扩展一些相关的技术细节和实际工程中的挑战与解决方案
9命怪猫
·
2025-02-09 23:21
软件架构
AI
人工智能
ai
DeepSeek:全栈开发者视角下的AI革命者
目录DeepSeek:全栈开发者视角下的AI革命者前言一、DeepSeek的诞生与定位二、DeepSeek技术架构的颠覆性突破1、解构算力霸权:从
MoE
架构到内存革命2、多模态扩展的技术纵深3、算法范式的升维重构
北海屿鹿
·
2025-02-09 13:44
人工智能
机器学习
语言模型
人工智能
混合专家模型 (
MoE
) 最全详细图解
随着Mixtral8x7B(announcement,modelcard)的推出,一种称为混合专家模型(MixedExpertModels,简称MoEs)的Transformer模型在开源人工智能社区引起了广泛关注。在本篇博文中,我们将深入探讨MoEs的核心组件、训练方法,以及在推理过程中需要考量的各种因素简短总结混合专家模型(MoEs):与稠密模型相比,预训练速度更快与具有相同参数数量的模型相比
DFCED
·
2025-02-09 10:23
人工智能算法前沿
AIGC算法学术工业技术前沿
混合专家网络
MOE
DeepSeek
人工智能
深度学习
大模型
DeepSeek-V3 技术报告 (核心技术,接近5万字)
摘要我们介绍了一个强大的混合专家(
MoE
)语言模型DeepSeek-V3,它具有总计671亿个参数和每个令牌激活的37亿个。
zhangjiaofa
·
2025-02-09 10:21
DeepSeek
R1&
AI人工智能大模型
DeepSeek
V3
DeepSeek模型全解析:赋能人工智能新纪元
以下是对DeepSeek模型的详尽剖析:一、模型概览DeepSeek,源自一家中国AI初创公司,其最新版本DeepSeek-V3是一款基于先进的Mixture-of-Experts(
MoE
)架构的语言模型
云梦优选
·
2025-02-08 23:01
算法
python
计算机
人工智能
大数据
DeepSeek
MoE
项目教程
DeepSeekMoE项目教程DeepSeek-
MoE
项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-
MoE
1、项目介绍DeepSeekMoE是一个基于Mixture-of-Experts
姬牧格Ivy
·
2025-02-08 10:59
大模型的训练与应用 | 二十二、DeepSeek API 申请与使用指南
一、DeepSeekAPI概览DeepSeekAPI基于先进的
MoE
模型,支持对话生成和补全,适用于聊天机器人、虚拟助手等应用场景。
西琴小竹
·
2025-02-08 06:50
DeepSeek为什么采用与主流大模型不一样的
MoE
架构?一文搞懂什么是
MoE
模型
在DeepSeek官网上看到,DeepSeek-V3、V2.5版本都用了
MoE
架构。但像Qwen、LLama模型,用的却是Dense架构,也就是传统的Transformer架构。
大模型_学习路线
·
2025-02-08 04:39
架构
人工智能
AI大模型
大模型
自然语言处理
LLM
DeepSeek
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他