AI项目和框架 - 第 44 页

dots.llm1

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts（MoE）文本大模型，具有 1420 亿参数，激活参数为 140 亿。模型在 11.2T 高质量 token 数据上...

阅读原文

AI工具

7个月前

MiniCPM 4.0

MiniCPM 4.0 是面壁智能推出的端侧大模型。模型分为 8B 和 0.5B 两种参数规模。8B 闪电稀疏版采用创新稀疏架构，能高效处理长文本任务；0.5B 版本以低计算资...

阅读原文

AI工具

7个月前

Eleven v3

Eleven v3是ElevenLabs推出的先进文本转语音模型。通过内联音频标签实现情感和语调的精确控制，支持多说话人对话，对话更自然。模型支持超70种语言，文本理解...

阅读原文

AI工具

8个月前

Qwen3 Reranker

Qwen3 Reranker是阿里巴巴通义千问团队发布的文本重排序模型，属于Qwen3模型家族。采用单塔交叉编码器架构，输入文本对后输出相关性得分。模型通过多阶段训练...

阅读原文

AI工具

8个月前

Qwen3 Embedding

Qwen3 Embedding 是基于 Qwen3 基础模型开发的文本表征、检索与排序专用模型。继承了 Qwen3 的先进架构，如 Grouped Query Attention、SwiGLU 激活函数等，通...

阅读原文

AI工具

8个月前

DecipherIt

DecipherIt是AI驱动的研究助手工具，基于智能化手段简化和优化研究过程。工具支持将各种主题、链接和文件转化为AI生成的研究笔记本，提供全面的总结、互动问...

阅读原文

AI工具

8个月前

Gemini Fullstack LangGraph Quickstart

Gemini Fullstack LangGraph Quickstart 是谷歌DeepMind推出的开源项目，帮助开发者快速搭建基于 Google Gemini 2.5 和 LangGraph 的全栈智能研究助手。

阅读原文

AI工具

8个月前

MoonCast

MoonCast 是零样本播客生成系统，从纯文本源合成自然的播客风格语音。通过长上下文语言模型和大规模语音数据训练，能生成几分钟长的播客音频，支持中文和英文。

阅读原文

AI工具

8个月前

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音（TTS）模型，基于超过200万小时的音频数据训练，支持13种语言。采用双自回归（Dual-AR）架构和强化学习与人类反馈...

阅读原文

AI工具

8个月前

PlayDiffusion

PlayDiffusion是PlayAI推出的新型音频编辑模型，基于扩散模型技术，专门用在音频的精细编辑和修复。模型将音频编码为离散的标记序列，对需要修改的部分进行掩...

AI工具

8个月前

Auto Think

Auto Think是快手Kwaipilot团队开源的KwaiCoder-AutoThink-preview自动思考大模型，模型针对深度思考大模型存在的“过度思考”问题进行了深入研究，提出了一种...

阅读原文

AI工具

8个月前

Firesearch

Firesearch 是 Mendable AI 团队推出的 AI 驱动的深度研究工具。基于 Firecrawl 多源网络内容提取技术，结合 OpenAI GPT-4o 的搜索规划和内容生成能力，将复...

阅读原文

AI工具

8个月前

OCode

OCode 是终端原生 AI 编程助手，为开发者提供深度代码库智能和自动任务执行功能。与本地 Ollama 模型无缝集成，将企业级 AI 辅助直接融入开发流程中。终端原...

阅读原文

AI工具

8个月前

Jaaz

Jaaz 是开源的 AI 设计工具，是 Lovart 的本地免费替代品。具备强大的 AI 设计能力，能智能生成设计提示，批量生成图像、海报、故事板等。Jaaz 支持 Ollama、...

阅读原文

AI工具

8个月前

VRAG-RL

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，专注于提升视觉语言模型（VLMs）在处理视觉丰富信息时的检索、推理和理解能力。基...

阅读原文

AI工具

8个月前