AI项目和框架

MCP Server Chart

MCP Server Chart 是蚂蚁AntV团队推出的可视化图表生成工具。工具基于Model Context Protocol(MCP)协议,支持超过25种可视化图表,包括常见的统计图表(如...
阅读原文

Qwen VLo

Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。在多模态大模型的基础上进行了全面升级,能“看懂”世界,能基于理解进行高质量的再创造,实现了从感...
阅读原文

FilMaster

FilMaster 是香港大学、快手科技、微软研究院和清华大学联合推出的AI电影制作系统,将电影制作原则与生成式人工智能相结合,实现从剧本到最终影片的全自动制...
阅读原文

MultiAgentPPT

MultiAgentPPT 是多智能体演示文稿生成系统,基于 A2A(Ask-to-Answer)、MCP(Multi-agent Control Protocol)和 ADK(Agent Development Kit)架构。MultiA...
阅读原文

混元-A13B

混元-A13B是腾讯最新推出的开源大语言模型,基于专家混合(MoE)架构,总参数量达800亿,激活参数为130亿。具备轻量级设计和高效推理能力,仅需1张中低端GPU...
阅读原文

Kling-Foley

Kling-Foley 是可灵 AI 推出的多模态视频生音效模型。模型将视频和文本提示作为条件输入,能生成与视频内容语义相关、时间同步的高质量立体声音频,涵盖音效...
阅读原文

4D-LRM

4D-LRM(Large Space-Time Reconstruction Model)是Adobe研究公司、密歇根大学等机构的研究人员共同推出的新型4D重建模型。模型能基于稀疏的输入视图和任意...
阅读原文

VLN-R1

VLN-R1是香港大学和上海人工智能实验室联合推出的全新具身智能框架,基于大型视觉语言模型(LVLM)直接将第一人称视频流转换为连续的导航动作。框架基于Habit...
阅读原文

Nanonets-OCR-s

Nanonets-OCR-s(Nanonets OCR Small)是Nanonets推出的图像到 Markdown 的 OCR 模型,支持将图像中的文档内容转换为结构化的 Markdown 格式。模型能提取文本...
阅读原文

Kwai Keye-VL

Kwai Keye-VL 是快手自主研发的多模态大语言模型,基于 Qwen3-8B 语言模型整合SigLIP初始化的视觉编码器,支持动态分辨率输入。模型能深度融合和处理文本、图...
阅读原文

Gemini CLI

Gemini CLI 是谷歌开源的 AI Agent,将 Gemini 大模型融入开发者终端。Gemini CLI提供强大 AI 功能,如代码理解、文件操作、命令执行及动态排查问题,助力开...
阅读原文

AlphaGenome

AlphaGenome是谷歌DeepMind推出的全新AI模型,能更深入地理解基因组。模型能接收长达100万个碱基对的DNA序列输入,预测数千种表征其调控活性的分子特性,评估...
阅读原文

Claudia

Claudia 是为 Claude Code 设计的桌面应用程序和工具包,通过直观的图形界面提升 AI 辅助开发的效率和安全性。支持项目与会话管理,用户可以轻松浏览、恢复过...
阅读原文

DRA-Ctrl

DRA-Ctrl(Dimension-Reduction Attack)是浙江大学联合蚂蚁集团等机构推出的创新跨模态图片编辑框架。框架借助视频生成模型的视觉、时间、空间和因果等多维...
阅读原文

DAMO GRAPE

DAMO GRAPE是浙江省肿瘤医院与阿里巴巴达摩院联合推出的全球首个基于平扫CT识别早期胃癌的AI模型。DAMO GRAPE突破传统影像学限制,基于深度学习分析非增强CT...
阅读原文
17891011136