AI项目和框架

TrendPublish

TrendPublish 是基于 AI 的趋势发现和内容发布系统。基于多源数据采集,从 Twitter/X、网站等渠道获取信息,用 DeepseekAI、千问等 AI 服务进行智能总结、关...
阅读原文

Proxy Lite

Proxy Lite 是开源的轻量级视觉语言模型(VLM),参数量为3B,支持自动化网页任务。Proxy Lite 能像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等...
阅读原文

WeGen

WeGen 是中国科学技术大学联合上海交通大学、微信团队、中国科学院等机构推出的统一多模态生成模型,基于自然对话实现多样化的视觉生成任务。WeGen结合多模态...
阅读原文

DiffBrush

DiffBrush是北京邮电大学、清华大学、中国电信人工智能研究所和西北工业大学推出的,无需训练的图像生成与编辑框架,支持用户基于手绘草图直观地控制图像生成...
阅读原文

Liquid

Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大型...
阅读原文

X-Dancer

X-Dancer 是字节跳动联合加州大学圣地亚哥分校和南加州大学的研究人员共同推出的音乐驱动的人像舞蹈视频生成框架,支持从单张静态图像生成多样化且逼真的全身...
阅读原文

AVD2

AVD2(Accident Video Diffusion for Accident Video Description)是清华大学联合香港科技大学、吉林大学、南京理工大学、北京理工大学、复旦大学等机构推出...
阅读原文

Kiss3DGen

Kiss3DGen是创新的3D资产生成框架,通过重新基于预训练的2D图像扩散模型来高效生成、编辑和增强3D对象。核心在于生成“3D Bundle Image”,将多视图图像及对应...
阅读原文

Archon

Archon 是专注于构建和优化 AI 智能体的开源项目。通过自主生成代码和优化智能体性能,展示了现代 AI 开发的核心理念。Archon 的核心功能包括智能体的快速构...
阅读原文

PodAgent

PodAgent 是香港中文大学、微软和小红书联合推出的播客生成框架。基于模拟真实的脱口秀场景,用多智能体协作系统(包括主持人、嘉宾和编剧)自动生成丰富且结...
阅读原文

Chat2SVG

Chat2SVG 是创新的文本到矢量图形(SVG)生成框架,通过结合大型语言模型(LLMs)和图像扩散模型,实现高质量 SVG 图形的自动化创作。通过多阶段流程,首先基...
阅读原文

QwQ-32B

QwQ-32B 是阿里巴巴开源的新型推理模型,参数量为 320 亿。基于大规模强化学习(RL)训练,在数学推理、编程等任务上表现出色,性能比肩 6710 亿参数的 DeepS...
阅读原文

Light-R1

Light-R1是360智脑开源的AI模型,专注于数学领域的长思维链推理,具体为 Light-R1-32B。模型基于Qwen2.5-32B-Instruct,用7万条数学数据和两阶段课程学习(SF...
阅读原文

SpatialVLA

SpatialVLA 是上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,为机器人赋予通用的3...
阅读原文

TheoremExplainAgent

TheoremExplainAgent(TEA)是滑铁卢大学、Votee AI等机构开源的多模态代理系统,基于生成长篇动画视频帮助人们更好地理解数学和科学定理。TheoremExplainAge...
阅读原文
15657585960148