FireRedASR2S

FireRedASR2S – 小红书开源的语音识别模型

FireRedASR2S：小红书倾力打造的工业级智能语音引擎

在人工智能飞速发展的浪潮中，语音识别技术正以前所未有的速度渗透到我们生活的方方面面。近日，小红书Super Intelligence-AudioLab正式开源了其自主研发的工业级端到端语音识别模型——FireRedASR2S。这款模型集成了先进的语音识别（ASR）、语音活动检测（VAD）、语种识别（LID）以及标点预测（Punc）四大核心模块，堪称SOTA（State-of-the-Art）技术的集大成者。

FireRedASR2S的卓越之处

FireRedASR2S并非一款普通的语音识别工具，它是一款经过海量真实场景打磨的工业级模型。其核心亮点在于整合了四大前沿技术，为用户提供了全面而强大的语音处理能力。模型不仅支持地道的中文普通话，更兼容20余种中国方言，同时也能游刃有余地处理英语、代码切换甚至歌词识别等复杂场景。在中文普通话识别上，FireRedASR2S的字错率低至惊人的2.89%，方言识别的平均错误率也仅为11.55%，在与Doubao-ASR、Qwen3-ASR等同类竞品较量中，展现出压倒性的优势。

更令人称道的是，FireRedASR2S支持便捷的一键本地部署，无需依赖外部API，这为用户提供了极大的灵活性和数据安全性。目前，该模型已在小红书内部的语音评论、语音搜索等高频应用场景中实现规模化落地，证明了其在实际应用中的卓越性能与稳定性。

FireRedASR2S的核心能力解读

强大的语音识别（FireRedASR2）：FireRedASR2S在语音识别方面表现出色，能够精准识别中文普通话、20余种不同方言/口音、英语，以及中英混杂的语音内容，甚至能够识别歌词。它提供了两种核心架构版本：LLM版本利用大语言模型的强大理解能力实现端到端的语音处理；AED版本则在经典的Encoder-Decoder框架基础上进行优化，显著提升了计算效率，并支持输出字级别的精确时间戳和置信度分数。
精准的语音活动检测（FireRedVAD）：FireRedVAD模型能够灵敏地识别语音、歌声乃至音乐，支持超过100种语言。无论是在线流式处理还是离线非流式处理，它都能提供出色的表现，F1分数高达97.57%，确保了对音频的准确捕捉。
高效的语种识别（FireRedLID）：FireRedLID模型能够准确识别100多种语言以及20多种中国方言，准确率高达97.18%，远超Whisper等同类开源方案，为多语言场景下的应用提供了坚实基础。
智能的标点预测（FireRedPunc）：为了提升转写文本的可读性，FireRedPunc模型能够智能地为中英文文本添加标点符号，平均F1分数达到78.90%，让语音转写结果更加流畅自然。

FireRedASR2S的技术内核解析

语音识别（FireRedASR2）：FireRedASR2S的语音识别模块采用了两种创新的架构。一种是结合了Encoder-Adapter-LLM的模式，通过大语言模型的能力实现深度语音理解。另一种是Attention-based Encoder-Decoder架构，在经典的编码器-解码器框架上精细优化了计算效率，并引入适配器层来融合语音与文本的表征，从而实现对时间戳和置信度的精准输出。
语音活动检测（FireRedVAD）：该模块基于DFSMN（深度前馈序列记忆网络）技术，能够有效捕捉音频的时序特征。通过精密的平滑窗口和阈值判断，它能够精准地界定语音的起始和结束点，并能区分语音、歌声和音乐等不同的音频。此外，它还支持流式处理，以满足对实时性有极高要求的应用场景。
语种识别（FireRedLID）：FireRedLID巧妙地复用了FireRedASR2的编码器来提取语音特征，并在此基础上训练一个高效的分类器来预测语种标签。通过在大规模多语言数据集上的预训练，模型构建了一个共享的跨语种表征空间，从而实现了对100多种语言及中国方言的高精度识别。
标点预测（FireRedPunc）：基于强大的BERT架构，FireRedPunc模型能够将无标点的文本作为输入，并精准预测每个位置应插入的标点类型。通过在中英文多领域数据上的精心微调，模型深刻理解了文本的语义和句法结构，从而能够自动、准确地添加标点符号，显著提升了文本的可读性。

FireRedASR2S的项目链接

GitHub仓库：https://github.com/FireRedTeam/FireRedASR2S
HuggingFace模型库：https://huggingface.co/collections/FireRedTeam/fireredasr2s

FireRedASR2S的广泛应用前景

丰富内容社区互动：FireRedASR2S赋能小红书的语音评论和语音搜索功能，让用户能够以更加自然、多元的方式（包括使用方言、演唱歌曲等）参与社区互动，极大地增强了平台的生动性和趣味性。
革新社交与通讯体验：在语音私信、语音拜年等场景下，FireRedASR2S能够实现流畅自然的语音输入和实时转写，有效降低沟通门槛，提升情感传递的效率与深度。
助力内容创作与生产：对于内容创作者而言，FireRedASR2S是强大的辅助工具，能够支持语音发布笔记、生成直播字幕以及视频自动字幕等功能，帮助创作者更高效地产出高质量的多媒体内容。
赋能企业级服务升级：在会议转写、智能客服、电话分析等企业级应用中，FireRedASR2S凭借其私有化部署能力，能够满足金融、医疗等对数据安全和合规性有严格要求的行业需求，提供定制化的解决方案。

阅读原文