标签:文本转语音

WPS接入DeepSeek,秒变办公神器!

WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
阅读原文

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

StepAudio 2.5 TTS

StepAudio 2.5 TTS是阶跃星辰推出的Contextual TTS(语境感知语音合成模型),首次将语境理解能力引入语音生成全流程。
阅读原文

VoxCPM2

VoxCPM2是OpenBMB开源的2B参数语音合成模型。模型采用无分词器扩散自回归架构,支持30种语言及中文方言,输出48kHz录音室级音质。
阅读原文

Voxtral TTS

Voxtral TTS 是 Mistral AI开源的文本转语音模型,基于 40 亿参数架构,支持 9 种语言。模型具备 90 毫秒超低延迟和 6 倍实时生成速度,仅需 3-5 秒音频可实...
阅读原文

Covo-Audio

Covo-Audio 是腾讯开源的70亿参数端到端语音大模型,可直接处理连续音频输入并生成音频输出。模型核心创新包括分层三模态语音-文本交错架构、智能与说话人解...
阅读原文

FireRedASR2S

FireRedASR2S是小红书Super Intelligence-AudioLab开源的工业级端到端语音识别模型,集成ASR、VAD、语种识别和标点预测四大SOTA模块。
阅读原文

Ming-omni-tts

Ming-omni-tts 是蚂蚁集团开源的统一音频生成模型,采用自回归架构实现语音、音乐和音效的联合生成。模型支持通过自然语言指令对语速、音调、音量、情感和方...
阅读原文

DiaMoE-TTS

DiaMoE-TTS 是清华大学和巨人网络联合推出的多方言语音合成(TTS)框架。框架基于国际音标(IPA)统一输入体系,结合方言感知的 Mixture-of-Experts(MoE)架...
阅读原文

NeuTTS Air

NeuTTS Air 是 Neuphonic 开发的超拟真、可离线运行的 TTS(文本到语音)模型。具备高拟真语音合成能力,声音自然流畅,几乎能以假乱真。支持本地运行,提供 ...
阅读原文

Qwen3-TTS-Flash

Qwen3-TTS-Flash 是阿里通义推出的支持多音色、多语言和多方言的旗舰语音合成模型。模型具备卓越的中英语音稳定性,出色的多语言性能,及高表现力的拟人音色。
阅读原文

IndexTTS2

IndexTTS2是B站语音团队开发的新型文本转语音(TTS)模型,已经正式开源。模型在情感表达和时长控制方面实现了重大突破,是首个支持精确时长控制的自回归TTS...
阅读原文

UnifiedTTS

UnifiedTTS 是提供一站式文本转语音(TTS)服务的平台。通过统一的 API 接口,整合了多种主流的 TTS 服务,包括 Microsoft Azure、MiniMax、阿里云和 ElevenL...
阅读原文

Wan2.2-S2V

Wan2.2-S2V 是开源的多模态视频生成模型,仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,且支持多种图片类型和画幅。
阅读原文

KittenTTS

KittenTTS 是轻量级开源文本转语音(TTS)模型,由 KittenML 团队开发。以极小的模型体积(仅 25MB)和强大的 CPU 优化为特点,无需 GPU 即可在低功耗设备上...
阅读原文

Kyutai TTS

Kyutai TTS 是法国人工智能研究机构 Kyutai Labs 推出的流式文本转语音(TTS)技术。是创新的语音合成系统,能实时将文本转换为自然流畅的语音,无需等待完整...
阅读原文

Voxiyo

Voxiyo是AI语音笔记管理应用,帮助用户高效记录、整理和利用语音信息。基于强大的 AI 功能,将语音笔记转化为文字、摘要、关键点和待办事项,实现一键生成和...
阅读原文
12