FireRedTTS-2

FireRedTTS-2 – 小红书推出的流式文本转语音系统

FireRedTTS-2：革新对话式语音合成，实现低延迟、高保真、多语言的实时交互。

FireRedTTS-2 是一款尖端的长篇幅流式文本转语音（TTS）系统，其核心优势在于能够生成逼真、自然的多说话人对话。该系统凭借其创新的12.5Hz流式语音分词器和高效的双Transformer架构，实现了前所未有的低延迟和高保真语音合成效果，并全面支持多语言。FireRedTTS-2 不仅覆盖了英语、中文、日语、韩语、法语、德语和俄语等多种主流语言，更具备强大的零样本跨语言及语码转换语音克隆能力，能够灵活适应各种语音生成需求。

FireRedTTS-2 的独特之处

FireRedTTS-2 突破了传统TTS系统的局限，专注于为用户带来更丰富、更具沉浸感的语音体验。其最显著的特点包括：

流畅的长对话生成：系统现已支持生成包含4位说话者、长达3分钟的对话内容。通过不断优化和扩充训练语料，其对话时长和说话人数量均有进一步提升的潜力，为内容创作者和开发者提供了广阔的应用空间。
全球化的语言能力：FireRedTTS-2 的多语言覆盖范围极广，涵盖了世界上主要的交流语言。更令人惊叹的是，它能够实现零样本跨语言语音克隆，即在无需目标语言额外训练数据的情况下，即可模仿不同语言的说话风格，极大地简化了跨语言内容制作的流程。
近乎实时的响应速度：在L20 GPU环境下，FireRedTTS-2 的首次数据包延迟仅为140毫秒，这一超低延迟使其成为实时交互场景的理想选择。无论是语音助手、在线客服还是游戏NPC，都能提供即时、流畅的语音反馈。
卓越的语音稳定性与自然度：通过严谨的独白与对话测试，FireRedTTS-2 生成的语音在相似度、清晰度和韵律感方面均表现出色，语音识别错误率极低，能够持续输出高质量、富有表现力的声音。
个性化音色定制：该系统能够生成具有随机特征的语音，为语音识别模型训练提供了海量多样化的数据集，也为语音交互系统提供了丰富的测试素材，满足不同应用场景下的个性化需求。
情感化语音表达：FireRedTTS-2 在与机器人集成时，能够根据上下文智能生成富有情感的语音，使得人机交互更加生动、贴近真实对话，显著提升用户体验。
先进的流式处理技术：采用12.5Hz流式语音分词器，FireRedTTS-2 实现了高效的流式解码，确保了在生成长篇幅语音内容时，依然能够保持高质量和低延迟，完美契合实时应用的需求。

FireRedTTS-2 的技术精髓

FireRedTTS-2 的卓越性能源于其背后强大的技术支撑：

高效的12.5Hz流式语音分词器：这一创新的分词器以较低的帧率运行，能够更全面地编码语义信息，缩短语音序列长度，并稳定文本到分词的映射关系，从而实现高保真的流式解码，为实时应用奠定坚实基础。
创新的双Transformer架构：系统采用独特的文本-语音交错格式，将带有说话人标记的文本与同步的语音分词序列相结合，并利用双Transformer模型进行高效建模。其中，一个大型的解码器仅Transformer负责预测第一层的分词，而一个较小的Transformer则处理后续层级，实现了精细化的语音生成。
强大的多语言建模能力：通过先进的多语言预训练技术，FireRedTTS-2 能够无缝支持多种语言的语音生成，并提供零样本跨语言及语码转换语音克隆功能，使其能够轻松应对全球化的对话场景。
极致的低延迟设计：模型架构和推理流程的深度优化，确保了系统在L20 GPU上的卓越表现，首次数据包延迟可低至140毫秒，完全满足对实时性要求极高的交互式应用。
可扩展的长对话支持：凭借高效的分词和建模机制，FireRedTTS-2 能够轻松处理包含多位说话者、较长时长的对话。通过持续的训练和语料扩充，其在对话时长和说话人数量方面仍有巨大的提升空间。
上下文感知的韵律调整：在语音生成过程中，FireRedTTS-2 能够精准捕捉上下文信息，并据此动态调整语音的韵律和情感表达，使得合成的语音更加自然、生动，富有感染力。