Mellum2

Mellum2 – JetBrains 开源的混合专家模型

Mellum2：JetBrains 倾力打造的软件工程领域新一代 AI 引擎

在飞速发展的软件工程领域，人工智能正扮演着越来越重要的角色。JetBrains，作为全球知名的开发者工具提供商，近日发布了一款名为 Mellum2 的全新机器学习模型，旨在为软件工程的 AI 工作流注入强大动力。这款模型以其独特的低延迟、高吞吐和成本效益，迅速成为构建企业级 AI 编程助手和自动化流程的优选方案。

Mellum2 的核心亮点在于其精巧的设计理念。它并非追求大而全的参数堆砌，而是通过每 token 仅激活 2.5B 参数的稀疏化架构，实现了极高的运行效率。这种设计使得 Mellum2 在代码生成、智能路由、子 Agent 调用以及私有化部署等方面都展现出卓越的性能，并在 LiveCodeBench 等权威代码评测中取得了领先地位。

Mellum2 的核心能力概览

智能代码伙伴：Mellum2 深度融合了海量的代码与自然语言数据，能够提供精准的代码补全、函数生成以及代码重构建议，让开发者的编码体验如虎添翼。
灵活的双模推理：为了满足不同场景的需求，Mellum2 提供了“深度思考”（Thinking）和“快速响应”（Non-thinking）两种推理模式，用户可根据实际情况灵活切换，在精度与速度之间找到最佳平衡点。
AI 工作流的智慧大脑：作为 AI 工作流的“中枢神经”，Mellum2 能够智能地进行任务分发、文档摘要以及中间推理，确保整个流程的顺畅与高效。
强大的工具集成与 Agent 协同：Mellum2 无缝支持子 Agent 的调用以及工具链的集成，能够深度嵌入到复杂的自动化流程中，实现更高级别的自动化。
本地化部署，数据安全无忧：Mellum2 支持在企业内部网络或本地设备上运行，无需依赖外部服务，彻底解决了数据隐私和合规性的顾虑。

Mellum2 的技术基石

MoE 稀疏化架构的精妙运用：Mellum2 采用了 Mixture-of-Experts（MoE）设计，拥有 64 个专家，但每 token 仅激活 8 个，实际活跃参数量控制在 2.5B。这一策略使得其推理成本接近于一个 2.5B 的密集模型，同时总参数量高达 12B，兼顾了模型的容量和效率。辅以 Grouped-Query Attention 和滑动窗口注意力机制，显著降低了显存占用并加速了解码过程。此外，引入的多 Token 预测头（Multi-Token Prediction）作为辅助预训练目标，不仅提升了模型性能，还充当了投机解码的内置 Draft 模型，进一步压缩了延迟。
三阶段课程化预训练策略：Mellum2 的训练过程历经约 10.6 万亿 Token 的海量数据洗礼。其训练数据配比从通用的网页内容逐步过渡到精选的代码和数学知识，形成了一种渐进式的学习课程。在优化器方面，采用了 Muon 优化器，并结合 FP8 混合精度训练，以及 Warmup-Hold-Decay 学习率调度策略，在训练效率和模型稳定性之间取得了精妙的平衡。
长上下文的深度探索：为了处理更长的代码和文档，Mellum2 在其基础模型上通过 Layer-Selective YaRN 技术，成功将上下文窗口扩展至 128K。该技术仅对关键层进行位置编码插值，避免了全层微调可能带来的性能损失，确保了长上下文处理的有效性。

Mellum2 的独特优势

MoE 架构带来的高效能：12B 的总参数量，却仅有 2.5B 的激活参数，这使得 Mellum2 在实现高吞吐和低延迟的同时，显著降低了推理成本，为大规模应用提供了可能。
专注领域的深度优化：Mellum2 放弃了多模态的通用性，专注于代码和自然语言的处理，这种垂直领域的深度专精使其在软件工程场景下表现得更为精准和轻量。
生产级的卓越表现：在 LiveCodeBench v6 代码评测中，Mellum2 的 Thinking 模式得分高达 69.9，力压同级别开源模型，展现了其强大的生产力。
完全开源，商用无忧：Mellum2 遵循 Apache 2.0 协议，这意味着用户可以地进行实验、微调，甚至进行大规模的商业部署，无需担心许可限制。
企业级隐私保护：Mellum2 支持完全的本地化部署，能够满足企业在代码安全和数据合规方面的严格要求，为敏感项目提供了坚实的后盾。

Mellum2 与同类竞品的对比视野

对比维度	Mellum2	Qwen3.5-9B	SeedCoder-8B
模型架构	12B MoE（64 专家，8 激活，2.5B 活跃参数）	9B 密集模型（Dense）	8B 密集模型（Dense）
开源协议	Apache 2.0（完全可商用）	开源（可商用）	未明确/部分受限
模态支持	仅文本 + 代码（垂直专精）	文本、代码、图像、视频（多模态通用）	仅代码（单领域）
每 Token 计算量	≈2.5B 参数（极低）	9B 参数（全量激活）	8B 参数（全量激活）
LiveCodeBench v6	69.9（Thinking）	68.3（Thinking）	28.1（Non-thinking）
BFCL V4 工具调用	45.6（Thinking）	42.7（Thinking）	N/A（不支持）
AIME 数学推理	58.4（Thinking）	73.4（Thinking）	0（不支持）
上下文长度	128K（YaRN 扩展）	128K+	通常 4K-8K
推理模式	双模式：Thinking + Non-thinking	双模式：Thinking + Non-thinking	仅 Non-thinking

Mellum2 的落地应用场景

赋能智能编码体验：在集成开发环境（IDE）中，Mellum2 可提供媲美人类程序员的代码补全、函数生成、代码重构和编辑建议，彻底革新传统的自动补全工具。
加速调试与故障排查：Mellum2 能辅助开发者精准定位 Bug，分析复杂的堆栈信息，并生成潜在的修复方案，大幅缩短调试时间。
应对复杂任务的分解利器：在 AI Agent 的工作流中，Mellum2 可作为关键的中间推理节点，将复杂的指令拆解成一系列可执行的子任务，实现高效的任务自动化。
构建强大的工具调用与函数编排能力：通过 Function Calling，Mellum2 能够无缝连接外部 API、数据库或各类开发工具，自动化实现构建、测试和部署等流程。
打造全天候的对话式编程助手：用户可以通过自然语言与 Mellum2 交互，咨询技术难题、理解代码逻辑、获取最佳实践建议，如同拥有了一位 7×24 小时的专属技术顾问。

阅读原文