AI项目和框架

HunyuanVideo-Foley

HunyuanVideo-Foley是腾讯混元团队开源的端到端视频音效生成模型。模型能根据输入的视频和文字描述,生成与视频画面精准匹配的高质量音效,解决现有AI视频生...
阅读原文

问小白5

问小白5是问小白推出的“All in One”旗舰大模型,是国产大模型中智能水平最高的。模型在多项评测中表现优异,如AA-Index综合评估指标得分64.7分,STEM能力评测...
阅读原文

Grok Code Fast 1

Grok Code Fast 1 是 xAI 推出的 AI 编程模型,专为快速高效的基础代码任务设计。模型每秒可处理92个标记,拥有256k的上下文窗口,适合快速原型开发、代码调...
阅读原文

PixVerse V5

PixVerse V5是爱诗科技推出的自研AI视频生成大模型,已在全球同步上线。PixVerse V5版本在动态效果、视觉质量、一致性保持和指令遵循等方面进行全面升级,能...
阅读原文

FramePackLoop

FramePackLoop 是基于 FramePack 推出的无限循环视频生成工具。工具通过创建主视频和连接视频,将视频组合成循环视频,适用视频背景、图标等场景。
阅读原文

MiniCPM-V 4.5

MiniCPM-V 4.5是面壁智能推出的端侧多模态模型,拥有8B参数。模型在图片、视频、OCR等多个领域表现卓越,尤其在高刷视频理解方面取得突破,能处理高刷新率视...
阅读原文

Waver 1.0

Waver 1.0 是字节跳动推出的新一代视频生成模型,基于修正流 Transformer 架构,支持文本到视频(T2V)、图像到视频(I2V)和文本到图像(T2I)生成,可在单...
阅读原文

Youtu-agent

Youtu-agent 是腾讯优图实验室推出的开源智能体框架,用在构建、运行和评估自主智能体。框架基于开源模型DeepSeek-V3实现领先性能,支持多种模型 API 和工具...
阅读原文

Wan2.2-S2V

Wan2.2-S2V 是开源的多模态视频生成模型,仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,且支持多种图片类型和画幅。
阅读原文

Gemini 2.5 Flash Image

Gemini 2.5 Flash Image(代号nano banana)是谷歌 AI Studio推出的先进图像生成与编辑模型。模型能保持角色在不同场景中的一致性,支持通过自然语言进行精准...
阅读原文

SpatialLM 1.5

SpatialLM 1.5 是群核科技推出的强大的空间语言模型。模型基于大语言模型训练,能理解自然语言指令,输出包含空间结构、物体关系和物理参数的空间语言。用户...
阅读原文

WhisperLiveKit

WhisperLiveKit 是开源的实时语音识别工具,能将语音实时转录为文字,支持说话人识别。工具基于先进的技术如 SimulStreaming 和 WhisperStreaming,提供超低...
阅读原文

XBai o4

XBai o4是开源的大语言模型,基于“反射生成形式”训练,结合长CoT强化学习和过程奖励学习,在复杂推理能力上表现出色,中等模式下已超越OpenAI-o3-mini。

VibeVoice

VibeVoice 是微软推出的新型文本到语音(TTS)模型,能生成富有表现力、长篇幅、多说话者的对话式音频,如播客。
阅读原文

EchoMimicV3

EchoMimicV3是蚂蚁集团推出的高效多模态、多任务数字人视频生成框架。框架拥有13亿参数,基于任务混合和模态混合范式,结合新颖的训练与推理策略,实现快速、...
阅读原文
189101112147