AngelSlim

AngelSlim – 腾讯混元开源的全模态大模型压缩工具包

AngelSlim，一款由腾讯混元团队匠心打造并开源的创新性全模态大模型压缩工具集，正以前所未有的姿态，为大语言模型（LLM）、视觉语言模型（VLM）以及语音模型带来了高效且易于上手的压缩与加速新纪元。它巧妙地融合了量化、投机采样、稀疏化和蒸馏等前沿技术，旨在显著优化模型性能，降低部署门槛。

AngelSlim的卓越之处

AngelSlim 不仅仅是一个工具包，更是腾讯混元团队智慧的结晶。它集成了业界领先的压缩策略，包括 FP8/INT8/INT4 多精度量化、GPTQ、AWQ 等，为不同规模的模型提供量身定制的优化方案。其亮点在于提供了一键式调用和端到端部署的便捷体验，使得压缩后的模型能够无缝集成至 vLLM、Sglang 等主流推理框架，极大简化了开发流程。尤为引人注目的是，AngelSlim 重磅升级了投机采样训练框架，并独创了 Eagle3 架构，首次将这一性的技术成功应用于全模态场景。通过让小型模型担当“草稿起草者”，为大型模型提供多步候选 token，并由大型模型进行高效的并行验证，AngelSlim 在实际测试中实现了高达 1.4-1.9 倍的推理速度飞跃。目前，该工具集已成功适配混元、DeepSeek、Qwen 系列等众多广受欢迎的模型，开发者仅需通过简单的一条命令 pip install angelslim 即可快速启动使用。

AngelSlim的核心功能概览

多精度量化压缩：支持 FP8、INT8、INT4 等多种精度量化，并整合了 GPTQ、AWQ 等主流量化算法，从而显著削减模型的存储需求和计算开销。
投机采样加速引擎：以其首创的 Eagle3 训练架构为核心，小型模型能够高效地为大型模型生成多步候选 token，由大型模型进行并行验证，将推理速度提升至惊人的 1.4-1.9 倍。
全模态覆盖能力：全面支持大语言模型（LLM）、视觉语言模型（VLM）以及语音模型（ASR/TTS）的压缩与加速，并率先实现了投机采样技术在全模态场景下的突破性应用。
稀疏化与知识蒸馏：集成了结构化/非结构化稀疏以及知识蒸馏等技术，能够进一步压缩模型体积，同时最大限度地保留模型的性能表现。
一键式压缩便捷调用：提供了高度集成的 API 接口，极大地简化了各类主流压缩算法的调用流程，显著降低了开发者的使用门槛。
端到端部署无缝对接：经过训练优化的模型可以直接应用于 vLLM、Sglang 等主流推理框架，实现了从模型压缩到最终部署的全流程无缝衔接。
广泛的模型生态兼容：已成功支持混元（Hunyuan）、DeepSeek、Qwen、Qwen2.5VL、Qwen3-Omni 等一系列主流开源模型的压缩优化。

AngelSlim的技术精髓解析

量化压缩的奥秘：通过将模型权重从高精度浮点数（FP16/FP32）精确映射到低精度整数（INT8/INT4）或 FP8 格式，有效减少了存储占用和计算量。同时，GPTQ（逐层量化优化）和 AWQ（激活感知权重量化）等先进算法的应用，最大限度地降低了精度损失。
投机采样的智慧：该技术的核心在于训练一个小型草稿模型，使其能够提前生成多个候选 token。随后，大型目标模型则会一次性并行地验证这些候选 token，接受合法的 token，拒绝错误的 token 并进行回滚修正。这种“小模型起草+大模型把关”的协同机制，成功突破了传统串行解码的瓶颈。
Eagle3 架构的创新：在标准投机采样模型的基础上，Eagle3 架构引入了“前瞻性”训练策略。这使得草稿模型能够更精准地预测未来多步 token 的分布特征，从而显著提升候选序列的质量。最终，大模型的接受长度得以大幅延长（可达 1.8-3.5 倍），实现了更高水平的加速比。
知识蒸馏的精髓：此技术将大型模型（教师模型）的输出分布和中间层特征有效地迁移至小型模型（学生模型）。通过软标签监督和特征对齐，使小型模型在压缩体积的同时，能够继承大型模型的强大能力。
稀疏化的原理：通过精细的剪枝操作，去除冗余的权重连接（非结构化稀疏）或整个神经元/注意力头（结构化稀疏），降低了模型的计算密度。结合硬件加速，能够实现推理速度的显著提升。
全模态统一框架的设计：针对文本、图像、语音等不同模态模型架构的固有差异，AngelSlim 设计了统一的压缩接口和模态适配层。这使得量化、投机采样等核心技术得以跨模态复用，极大地提升了工具的通用性和易用性。

AngelSlim的项目探索入口

GitHub代码库：https://github.com/Tencent/AngelSlim
Hugging Face 模型集锦：https://huggingface.co/collections/AngelSlim

AngelSlim的广泛应用领域

云端大模型推理加速：为混元、DeepSeek、Qwen 等千亿级大模型提供高效的量化压缩与投机采样加速，显著降低 GPU 显存占用和计算延迟，从而大幅提升高并发场景下的服务吞吐量。
端侧模型部署优化：通过 INT4/INT8 量化技术，将大型模型压缩至适合在手机、平板、IoT 设备等终端上运行的理想体积，支持离线推理和对数据隐私要求极高的场景。
多模态 AI 应用加速：为视觉语言模型（VLM）的图文理解能力以及语音模型（ASR/TTS）的实时转录与合成提供全模态压缩解决方案，从而加速智能客服、内容审核、实时翻译等众多 AI 应用的进程。
AIGC 内容生成效率提升：在 AI 写作、代码生成、图像描述等生成式 AI 场景中，通过投机采样技术的应用，能够显著降低首 token 延迟和整体生成时间，极大地改善用户体验。
企业私有化部署成本优化：助力企业将开源大模型压缩后部署至私有云或本地服务器，有效减少算力采购成本，实现高性价比的 AI 中台建设。

阅读原文