语音转文字 - OpenI

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

1年前 (2025)

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

2年前 (2024)

Hojo-ASR-V1

Hojo-ASR-V1 是初创团队 Hojo 开源的自动语音识别模型，采用Whisper 特征提取 + Qwen3-Omni 音频编码 + Conformer 适配 + Qwen3-4B 语言模型解码的架构。

阅读原文

AI工具

2天前

MAI Transcribe-1.5

MAI-Transcribe-1.5 是微软 AI 团队自研的语音转文本模型，支持 43 种语言，具备上下文感知的关键词偏置能力，模型在 FLEURS 基准测试中取得行业最低的词错...

阅读原文

AI工具

1周前

Mega-ASR

Mega-ASR 是南洋理工大学（NTU）、新加坡国立大学（NUS）与上海人工智能实验室联合开源的全场景鲁棒语音识别基座模型，模型以 Qwen3-ASR 1.7B 为底层架构，针...

阅读原文

AI工具

3周前

Fun-ASR1.5

Fun-ASR1.5是阿里通义团队推出的端到端语音识别大模型的新一代版本，单模型支持30种语言高精度识别，覆盖中文七大方言体系及二十余种地方口音，专项优化古诗...

阅读原文

AI工具

2个月前

OmniVoice

OmniVoice是小米 AI 实验室新一代 Kaldi 团队开源的超大规模多语言TTS模型，支持600+语种零样本语音克隆。模型采用极简非自回归扩散架构，结合全码本随机Mask...

阅读原文

AI工具

2个月前

MAI-Transcribe-1

MAI-Transcribe-1是微软Azure AI Foundry推出的企业级语音转文字模型，支持中英日法等25种语言，模型在FLEURS基准测试中全面领先Whisper-large-v3。

阅读原文

AI工具

2个月前

Voxtral Transcribe 2

Voxtral Transcribe 2 是 Mistral AI 推出的新一代系列语音转文本模型，包含两个版本：Voxtral Mini Transcribe V2 专注批量转录，支持13种语言、说话人分离...

阅读原文

AI工具

4个月前

Qwen3-ASR

Qwen3-ASR 是阿里云通义千问团队开源的系列语音识别模型，包含 1.7B 高精度版、0.6B 高效版两个 ASR 模型，以及专用的 Qwen3-ForcedAligner-0.6B 强制对齐模型。

阅读原文

AI工具

4个月前

Nemotron Speech ASR

Nemotron Speech ASR 是英伟达开源的专注于低延迟、实时流式语音识别的模型。通过缓存感知架构，将已处理的语音特征缓存，仅对新音频帧进行计算，实现单句转...

阅读原文

AI工具

5个月前

SAM Audio

SAM Audio是Meta开源的音频分割模型，能通过文本、视觉和时间片段等多模态提示，从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovi...

阅读原文

AI工具

6个月前

MemEcho

MemEcho是为AI提供永久记忆赋能的平台，核心优势在于突破了传统AI的上下文窗口限制，让AI能真正为人类提供长期、持续的服务。在性能方面，MemEcho表现优异，...

阅读原文

AI工具

7个月前

FunAudio-ASR

FunAudio-ASR 是阿里巴巴达摩院推出的端到端语音识别大模型，专为解决企业落地中的关键问题设计。通过创新的 Context 增强模块，有效优化了“幻觉”和“串语种”...

阅读原文

AI工具

9个月前

Wan2.2-S2V

Wan2.2-S2V 是开源的多模态视频生成模型，仅需一张静态图片和一段音频，能生成电影级数字人视频，视频时长可达分钟级，且支持多种图片类型和画幅。

阅读原文

AI工具

10个月前

Fun-ASR

Fun-ASR 是钉钉与通义实验室语音团队联合推出的新一代语音识别大模型。经过海量音频数据训练，能精准识别互联网、科技、家装、畜牧等十多个行业的专业术语，...

阅读原文

AI工具

10个月前

晚点再听LaterCast

晚点再听LaterCast是AI播客生成应用，将微信公众号长文一键转换成播客的小程序。解决用户因忙碌而无法完整阅读公众号文章的问题，让用户可以在碎片化时间通过...

阅读原文

AI工具

10个月前

标签：语音转文字