MiniMax M3

MiniMax M3 – MiniMax 推出的新一代 AI 模型

MiniMax M3：AI领域的全新标杆，重塑智能交互新维度

人工智能技术的飞速发展，不断刷新着我们对智能的认知边界。近日，MiniMax重磅推出了其最新一代AI模型——MiniMax M3，这款模型凭借在编程、智能体（Agent）及长文本处理方面的卓越表现，迅速成为业界瞩目的焦点。它不仅在技术架构上实现了重大突破，更在实际应用中展现出强大的潜力，预示着AI将迎来一个全新的发展阶段。

MiniMax M3，不止于强大

MiniMax M3并非简单的迭代升级，而是MiniMax在AI领域的一次战略性飞跃。它集成了行业领先的编程辅助、Agent智能体以及超长文本处理能力，为用户带来了前所未有的智能体验。其核心亮点在于创新的MSA稀疏注意力架构，这一技术使得模型能够轻松驾驭高达100万token的超长上下文，并将处理效率提升了惊人的20倍。更令人振奋的是，M3原生支持图像和视频输入，甚至能够操控电脑桌面，这意味着AI将能更深入地理解和互动于我们的数字世界。在SWE-Bench等权威评测中，M3的表现已超越GPT-5.5等模型，并且，MiniMax选择将这一强大能力开源，用户可以通过MiniMax Code或API等多种方式进行体验。

M3的核心能力解析

编程与智能体（Agent）的革新：在SWE-Bench Pro编码测试中，M3的表现已然超越GPT-5.5等主流模型。它能够自主完成任务分解、工具调用以及多步推理，交付的代码目标是直接可用，真正实现了端到端的智能化编码。
1M超长上下文的无限可能：基于MiniMax自研的MSA架构，M3的API能够支持高达100万token的上下文窗口（最低保障512K tokens的可用性），极大地扩展了AI处理信息的能力范围。
原生多模态的直观交互：M3能够直接理解图像和视频输入，这意味着它可以解析论文中的图表、公式等视觉信息，并且能够模拟操作电脑桌面，展现出更强的环境适应性和交互性。
高效精炼的模型架构：M3采用了稀疏MoE（混合专家）架构，虽然总参数量达到196B，但在每次推理时仅激活约11B参数，极大地提升了运行效率和部署便利性。

M3背后的技术驱动力

MSA稀疏注意力架构的精妙设计：M3的核心是其自研的MSA（MiniMax Sparse Attention）机制。该机制通过一个轻量级的索引模块，能够快速识别序列中的关键KV块，并对其进行稀疏计算，从而在处理长序列时显著降低计算负荷。
两阶段计算流程的效率优化：模型首先通过一个低成本的注意力模块进行索引阶段，评估所有token的重要性；随后，在稀疏阶段，仅对筛选出的高价值块执行完整的注意力计算。这一流程使得处理一百万token上下文的计算量仅相当于传统模型的1/20。
MoE混合专家结构的智能分配：M3拥有196B的总参数量，但每次推理仅激活约11B参数（相当于约6个专家）。这种设计在保持模型强大容量的同时，显著提升了推理速度和部署效率。

如何解锁M3的强大功能

在线体验，即刻上手（MiniMax Code）：访问MiniMax Code官网（https://agent.minimaxi.com/download），无需复杂的部署过程，即可直接体验M3在编程、长文本处理等方面的强大能力。
API调用，深度集成：通过MiniMax开放平台获取API密钥，将M3无缝集成到您现有的应用或工作流中。M3支持图像/视频输入及Agent任务，为您的产品注入更强的智能。

M3的突出优势，引领未来

顶尖的编程与Agent能力：在SWE-Bench Pro、Terminal Bench等权威评测中，M3已达到国际领先水平，部分指标甚至超越GPT-5.5和Gemini 3.1 Pro。它能够完成端到端的代码交付和复杂的任务自动化。
超长上下文与极致效率的完美结合：支持1M token的超长上下文，得益于自研MSA稀疏注意力架构，处理百万级token的计算量仅为传统模型的1/20。预填充和解码阶段分别实现了9.7倍和15.6倍的提速。
原生多模态与桌面操作的全新体验：M3直接支持图像、视频输入，能够理解论文中的图表、公式等视觉信息，并能模拟操作电脑桌面（如点击、输入），极大地拓展了Agent的应用边界。

M3与同类竞品的一次审视

对比项	MiniMax M3	GPT-5.5
编程能力	SWE-Bench Pro超越GPT-5.5	表现优秀，但M3略胜一筹
上下文效率	1M token，计算量仅1/20	支持1M，但计算成本较高
多模态	原生支持图像/视频/桌面操作	仅支持图像（需特定多模态版本）
开源程度	完全开源	闭源

M3的应用场景展望

智能软件开发的加速器：M3能够直接根据需求生成可交付的代码，并自动化执行测试、重构和调试。其Agent能力可自主调用工具、拆解任务，为项目开发提供强力支持。
超长文档分析的：一次性处理百万token信息（如海量财报、技术手册或病历），轻松完成摘要、问答、合同审查或多文档对比等复杂任务。
桌面自动化与数字员工的赋能：M3具备“看懂”屏幕内容的能力，并能模拟电脑操作，适用于RPA流程自动化、软件测试、数据录入等场景，打造高效的数字员工。
多模态科研与教育的创新：M3能够理解论文中的图表、公式、实验截图，助力文献解读和实验复现。在教育领域，它可用于分析教学课件和提供智能答疑。

阅读原文