AI项目和框架

ERNIE-Image

ERNIE-Image是百度文心团队开源的8B参数文生图模型,基于Diffusion Transformer架构,主打高可控性与精准长文本渲染。
阅读原文

OmniShow

OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V(参考图+音频+姿势)的端到端框架,模型统一处理文本、...
阅读原文

Mano-P 1.0

Mano-P 1.0是明略科技开源的GUI-VLA智能体模型,采用纯视觉驱动,无需API可直接操控桌面软件与网页界面。模型提供72B完整版与4B量化版,支持Apple M4芯片本地...
阅读原文

HeyGen CLI

HeyGen CLI是HeyGen官方推出的命令行工具与MCP服务器,基于Model Context Protocol协议构建。工具支持开发者及AI助手(如Claude、Cursor)通过自然语言直接调...
阅读原文

PokeClaw

PokeClaw(全称 PocketClaw)是开源 Android AI 自动化应用,由开发者 Nicole 独立打造。是首个实现完全本地离线运行的手机 AI 代理,基于 Google Gemma 4 模...
阅读原文

LPM 1.0

LPM 1.0(Large Performance Model)是Anuttacon(蔡浩宇AI公司)推出的17B参数视频角色表演生成模型,支持实时全双工音视频对话。
阅读原文

claude-code-best-practice

claude-code-best-practice 是开源的 Claude Code 系统化使用指南。项目从"氛围编程"进阶到"智能体工程",收录 86+ 条实战技巧,涵盖 Ag...
阅读原文

MiniMax Music 2.6

MiniMax Music 2.6是MiniMax推出的全新AI音乐生成模型,实现从底层架构到创作体验的全维进化。该版本将首包延迟压缩至20秒内,突破性解决"开盲盒"...
阅读原文

FIPO

FIPO(Future-KL Influenced Policy Optimization)是阿里通义实验室推出的强化学习算法,通过Future-KL机制量化每个token对后续推理轨迹的影响力,实现token...
阅读原文

VimRAG

VimRAG是阿里通义实验室开源的全模态RAG框架,支持图文视频混合知识库。框架创新采用多模态记忆图(DAG)替代线性上下文,将推理建模为动态有向无环图实现路...
阅读原文

GO-2

GO-2(Genie Operator-2)是智元机器人推出的第二代具身智能基座大模型,能打通"理解-规划-执行"链路,弥合语义与动作间的鸿沟。模型首创"动...
阅读原文

ListenHub CLI

ListenHub CLI是开源的AI内容创作命令行工具,基于Node.js,支持在终端一键生成音乐、播客、PPT、语音及AI绘画。工具支持本地文件上传、JSON输出和异步模式,...
阅读原文

Seeduplex

Seeduplex是字节跳动Seed团队推出的原生全双工语音大模型,实现"边听边说"的实时交互。模型能精准抗干扰(误打断率降50%)、动态判停(抢话率降40%...
阅读原文

OmniVoice

OmniVoice是小米 AI 实验室新一代 Kaldi 团队开源的超大规模多语言TTS模型,支持600+语种零样本语音克隆。模型采用极简非自回归扩散架构,结合全码本随机Mask...
阅读原文

CutClaw

CutClaw是大湾区大学GVC实验室与北交大团队开源的AI视频剪辑工具。工具采用多智能体架构,通过"音乐驱动"方式将几小时长视频自动剪辑成节奏精准的...
阅读原文
12345184