标签:语音合成

Baichuan-Audio

Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话。Baichuan-Audio基于多码...
阅读原文

IndexTTS

IndexTTS 是 B 站推出的工业级可控文本转语音(TTS)系统。基于 XTTS 和 Tortoise 模型开发,结合了 GPT 风格的生成技术,能将文本高效转化为自然流畅的语音...
阅读原文

PySpur

PySpur 是开源的轻量级可视化 AI 智能体工作流构建器,简化 AI 系统的开发流程。基于拖拽式界面让用户能快速构建、测试和迭代 AI 工作流,无需编写复杂代码。...
阅读原文

Llasa TTS

Llasa TTS 是香港科技大学基于 LLaMA 架构推出的开源文本转语音(TTS)模型,支持高质量语音合成和克隆。Llasa TTS 基于单层向量量化(VQ)编解码器和单个 Tr...
阅读原文

Step-Audio-TTS-3B

Step-Audio-TTS-3B 是 Stepfun-AI 团队推出的高性能文本到语音(TTS)模型,具有强大的语音合成能力。基于海量合成数据训练,参数量达到30亿,能生成自然流畅...
阅读原文

TurboTTS

TurboTTS 是免费的在线文本转语音工具,支持70多种语言和300多种真实语音选择,能生成自然、逼真的语音效果,适用于短视频创作、在线教育、广告制作、播客等...
阅读原文

播记

播记是专为播客创作者设计的智能节目笔记(Shownotes)生成工具。通过AI技术,能快速提取播客音频中的关键信息,自动生成包含节目主题、嘉宾介绍、重要观点、...
阅读原文

Kokoro-TTS

Kokoro-TTS 是 hexgrad 开发的轻量级文本转语音(TTS)模型,具有 8200 万参数。基于 StyleTTS 2 和 ISTFTNet 的混合架构,采用纯解码器设计,不使用扩散模型...
阅读原文

什么是TTS(Text To Speech)

TTS(Text to Speech)即文本转语音技术。是一种将文本信息转化为自然语音输出的技术。通过TTS技术,计算机可以将输入的文本自动转换成自然语音,模拟出人类...
阅读原文

ElevenLabs Flash

ElevenLabs Flash是ElevenLabs推出的低延迟语音合成模型,专为快速对话型AI设计。ElevenLabs Flash有两个版本:Flash v2仅支持英语,Flash v2.5支持32种语言...
阅读原文

Emoji AI:个性化AI表情包生成器,让你的情感随时随地生动表达

Emoji AI是AI驱动的表情包制作应用,主打卡通风格,提供搜索和文生图功能,让用户能快速创建个性化表情。Emoji AI特别推出节日主题表情,适应不同文化和节日...
阅读原文

ElevenLabs Flash:创新低延迟语音合成模型提升语音交互体验

ElevenLabs Flash是ElevenLabs推出的低延迟语音合成模型,专为快速对话型AI设计。ElevenLabs Flash有两个版本:Flash v2仅支持英语,Flash v2.5支持32种语言...
阅读原文

Slides Orator:AI驱动的虚拟解说平台实现幻灯片内容的即时生动呈现

Slides Orator是创新的AI平台,基于创建虚拟形象实时展示幻灯片进行解说。工具基于技术生成语音旁白,让演示内容动态地与观众互动,增强演示的吸引力和参与度...
阅读原文

Voice-Pro:一站式音频处理解决方案集转录翻译与语音合成于一体

Voice-Pro是开源的多功能音频处理工具,集成语音转文字(STT)、文本转语音(TTS)、实时翻译、YouTube视频下载和人声分离等多种功能。工具支持超过100种语言...
阅读原文
1234