Minimax 开源的 4 百万超长上下文模型

MiniMax开源4百万超长上下文模型

MiniMax开源模型概述

2025年1月15日,MiniMax发布并开源了MiniMax - 01全新系列模型,这一举措在人工智能领域引发了广泛关注 。该系列包含基础语言大模型MiniMax - Text - 01和视觉多模态大模型MiniMax - VL - 01。MiniMax作为大模型六小强(或六小虎)企业之一,其推出的这一系列模型有着诸多独特之处。这一系列模型的开源是MiniMax在人工智能领域战略布局的一个关键步骤,无论是从技术创新角度,还是对行业发展的推动角度来看,都有着深远的意义 。

在模型的性能方面,MiniMax - 01系列模型综合表现与国际领先的模型相当。例如,在CoreAcademicBenchmark上的GPQADiamond测试中,MiniMax - Text - 01获得54.4分,超越GPT - 4o,展示出了很强的竞争力 。在之前的大模型格局中,GPT - 4o和Claude - 3.5 - Sonnet等海外模型在性能上处于较领先的位置,但MiniMax的模型追平甚至在特定任务上超越这些海外模型,无疑冲击了现有的大模型竞争格局。而且,MiniMax开源模型标志着国内大模型技术发展到了一个新的阶段,可以在开源的环境下推动全球的研究人员共同参与研究、改进和应用,促进整个行业的进步。

MiniMax 4百万超长上下文模型特点

1. 全新的架构创新

MiniMax - 01模型首次大规模应用了线性注意力机制,构建出一种创新的混合结构,每8层结构中包含7层基于LightningAttention的线性注意力机制,以及1层传统的SoftMax注意力机制。这种架构的创新使得模型能够更好地处理长序列数据。传统的Transfo

你可能感兴趣的:(人工智能,大数据,笔记)