深度学习-159-综述之混合专家模型和推理模型以及工作流和智能体的概念

文章目录

  • 1 专家混合模型(MoE)
    • 1.1 专家
    • 1.2 路由器
    • 1.3 稀疏和密集MoE
  • 2 混合推理模型
    • 2.1 快思考模式
    • 2.2 慢思考模式
    • 2.3 两种模式的切换
    • 2.4 混合推理模型Qwen3
  • 3 工作流和智能体
    • 3.1 工作流(Workflow)
    • 3.2 智能体(Agent)
    • 3.3 两者的关系
    • 3.4 如何选择
    • 3.5 几个问题
      • 3.5.1 大模型本身是不是智能体
      • 3.5.2 大模型+MCP是不是智能体
  • 4 参考附录

专家混合模型是属于LLM模型架构层面的概念。混合推理模型属于模型应用层面,在快速响应和复杂推理之间切换。一个智能体=多个工作流的组合,智能体可以拆解为多个子任务,而每个子任务可能是一个工作流。

1 专家混合模型(MoE)

专家混合模型(Mixture of Experts, MoE)是一种特殊的神经网络架构,它通过将输入数据分配给多个“专家”子网络来处理复杂问题。每个专家负责学习输入数据的一个特定方面或模式,而一个门控网络决定如何将输入分配给这些专家,并最终结合他们的输出。

专家混合模型(Mixture of Experts, MoE)的两个主要组成部分——专家(Experts)和路由器(Router)。
深度学习-159-综述之混合专家模型和推理模型以及工作流和智能体的概念_第1张图片
专家混合模型(MoE)是一种通过使用多个不同的子模型(或“专家”)来提升LLM质量的技术。

MoE的两个主要组成部分为:
(1)专家(Experts):每个前馈神经网络层(FFNN)现在都有一组可以选择的“专家”。这些“专家”通常本身也是前馈神经网络(FFNN)。

(2)路由器或门控网络(Router或Gate Network):决定哪些token被发送到哪些专家。

最后还有一个组合策略࿱

你可能感兴趣的:(深度学习,深度学习,人工智能)