AI项目和框架
Gemini 3.5 Live Translate
Gemini 3.5 Live Translate 是 Google 推出的最新实时翻译模型,支持 70+ 种语言的近实时语音到语音翻译。
ABot-Earth 0.5
ABot-Earth 0.5是阿里巴巴集团旗下高德推出的全球首个3D原生城市世界模型,定位为自动化3D城市工厂。用户输入单张卫星图像或文字描述,系统可在消费级GPU上10...
Kairos-HomeWorld
Kairos-HomeWorld 是大晓机器人联合香港中文大学与深圳河套学院推出的全球首个全屋三维可交互世界模型。模型通过四阶段分层生成架构,实现从文本到结构连贯、...
VitaBench 2.0
VitaBench 2.0 是美团 LongCat 团队推出的首个真实生活场景下长期动态用户建模智能体评测基准,包含 56 名拟真用户、819 个复杂任务、超 2000 个动态偏好及 6...
Magenta RealTime 2
Magenta RealTime 2(MRT2)是谷歌 Magenta 团队推出的第二代开源本地实时音乐生成模型。MRT2 基于逐帧生成架构,每帧 40 毫秒,实现约 200 毫秒的实际控制延...
html-video
html-video 是 OpenDesign 团队(nexu.io)开源的HTML版剪映,基于 hyperframes 框架构建。工具让 Agent 通过写 HTML 可生成世界级水准的产品宣传、知识解说...
BrowserAct Skills
BrowserAct Skills 是面向 AI Agent 的浏览器自动化 CLI 工具,能解决 Agent 操控浏览器时的核心痛点,无 Cookie 环境、反爬拦截、验证码阻断、人机协作断层等。