摘要:我们推出了MiniMax-M1,这是全球首个开源权重的大型混合注意力推理模型。MiniMax-M1采用了混合专家(Mixture-of-Experts,MoE)架构,并结合了闪电注意力(Lightning Attention)机制。该模型是在我们之前的MiniMax-Text-01模型基础上开发而来的,后者总共包含4560亿个参数,每个标记(token)激活459亿个参数。而MiniMax-M1模型原生支持长达100万个标记的上下文长度,是DeepSeek R1上下文大小的8倍。此外,MiniMax-M1中的闪电注意力机制使得测试时的计算能够高效扩展。这些特性使得MiniMax-M1特别适用于需要处理长输入和进行广泛思考的复杂任务。MiniMax-M1是在多样化的问题上使用大规模强化学习(RL)进行训练的,这些问题包括基于沙盒的真实世界软件工程环境。除了MiniMax-M1在RL训练方面固有的效率优势外,我们还提出了CISPO这一新型RL算法,以进一步提高RL效率。CISPO对重要性采样权重进行裁剪,而非对标记更新进行裁剪,其表现优于其他具有竞争力的RL变体。结合混合注意力机制和CISPO算法,使得MiniMax-M1在512块H800 GPU上完成完整的RL训练仅需三周时间,且租赁成本仅为534,700美元。我们发布了两个版本的MiniMax-M1模型,分别具有40K和80K的思考预算,其中40K模型代表了80K训练过程中的一个中间阶段。在标准基准测试上的实验表明,我们的模型与强大的开源权重模型(如原始的DeepSeek-R1和Qwen3-235B)相比,表现相当或更优,尤其在复杂的软件工程、工具利用和长上下文任务方面具有显著优势。我们在Github。Huggingface链接:Paper page,论文链接:2506.13585
研究背景:
随着人工智能技术的飞速发展,大型语言模型(LLMs)在自然语言处理领域取得了显著进展。然而,这些模型在处理长序列文本和复杂任务时面临着巨大的计算挑战。传统的注意力机制,如Transformer中的多头注意力,虽然有效,但在处理长序列时计算复杂度过高,限制了模型的扩展性和效率。此外,随着模型规模的增大,训练和推理的成本也急剧增加,使得大规模部署和应用变得困难。
为了应对这些挑战,研究者们开始探索更高效的注意力机制和模型架构。其中,混合专家(Mixture-of-Experts, MoE)架构和闪电注意力(Lightning Attention)机制因其高效的计算特性和良好的性能表现,逐渐成为研究热点。
研究目的:
本研究旨在介绍并评估一种新型的大型混合注意力推理模型——MiniMax-M1。该模型结合了混合专家架构和闪电注意力机制,旨在解决传统注意力机制在处理长序列文本时的计算瓶颈问题。具体而言,本研究的目的包括:
1. 模型架构设计:
MiniMax-M1模型基于混合专家架构和闪电注意力机制构建。具体而言,模型采用了以下关键技术:
2. 训练策略:
MiniMax-M1模型采用大规模强化学习(RL)进行训练。具体而言,训练过程包括以下关键步骤:
3. 实验设置:
为了评估MiniMax-M1模型的性能,本研究在多个标准基准测试上进行了实验。具体而言,实验设置包括以下几个方面:
1. 性能表现:
实验结果表明,MiniMax-M1模型在多种任务上表现出色。具体而言:
2. 效率表现:
除了性能表现外,MiniMax-M1模型在效率方面也表现出色。具体而言:
3. 模型扩展性:
本研究还评估了MiniMax-M1模型的扩展性。实验结果表明,随着思考预算的增加(从40K到80K),模型的性能不断提升。这表明MiniMax-M1模型具有良好的扩展性,能够通过增加计算资源来进一步提升性能。
尽管MiniMax-M1模型在多种任务上表现出了优异的性能和效率,但本研究仍存在一些局限性:
1. 数据集局限性:
本研究使用的数据集虽然涵盖了多种任务类型,但仍可能存在数据偏差或覆盖不足的问题。未来研究可以进一步扩展数据集范围,提高数据的多样性和代表性。
2. 模型可解释性:
尽管MiniMax-M1模型在性能上表现出色,但其内部工作机制仍较为复杂,难以直接解释。未来研究可以探索模型的可解释性方法,提高模型的透明度和可信度。
3. 计算资源需求:
尽管MiniMax-M1模型在效率方面有所提升,但其训练和推理过程仍需要大量的计算资源。对于资源有限的环境或应用场景,模型的部署和应用可能面临挑战。未来研究可以进一步优化模型架构和训练策略,降低计算资源需求。
4. 泛化能力:
虽然MiniMax-M1模型在多个基准测试上表现良好,但其泛化能力仍需进一步验证。未来研究可以在更多实际应用场景中测试模型的性能,评估其在新任务或新领域中的适应性和稳定性。
基于本研究的结果和局限性,未来研究可以从以下几个方面展开:
1. 扩展数据集和应用场景:
未来研究可以进一步扩展数据集范围,涵盖更多类型和领域的数据。同时,可以在更多实际应用场景中测试MiniMax-M1模型的性能,评估其在新任务或新领域中的适应性和稳定性。
2. 提升模型可解释性:
为了提高模型的透明度和可信度,未来研究可以探索模型的可解释性方法。例如,可以通过可视化技术展示模型的内部工作机制,或者开发可解释性算法来解释模型的决策过程。
3. 优化模型架构和训练策略:
为了进一步降低计算资源需求并提高模型性能,未来研究可以优化模型架构和训练策略。例如,可以探索更高效的注意力机制或混合专家架构设计,或者开发新的强化学习算法来提高训练效率。
4. 加强跨学科合作:
大型语言模型的研究涉及计算机科学、数学、认知科学等多个学科领域。未来研究可以加强跨学科合作,整合不同领域的知识和技术,共同推动大型语言模型的发展和应用。
5. 探索模型的社会影响:
随着大型语言模型在各个领域的广泛应用,其社会影响也日益凸显。未来研究可以探索模型对社会、经济、文化等方面的影响,并提出相应的应对策略和建议。例如,可以研究模型在就业、教育、隐私保护等方面的潜在影响,并制定相应的政策和规范来确保模型的合理应用。