AI项目和框架

GLM-4.1V-Thinking

GLM-4.1V-Thinking是智谱AI推出的开源视觉语言模型,专为复杂认知任务设计,支持图像、视频、文档等多模态输入。模型在GLM-4V架构基础上引入思维链推理机制,...
阅读原文

BlenderFusion

BlenderFusion是Google DeepMind推出的生成式视觉合成框架,将传统的 3D 编辑软件(Blender)与AI 模型相结合,实现精准的几何编辑和多样的视觉合成。
阅读原文

ML-Master

ML-Master是上海交通大学人工智能学院Agents团队推出ML-Master - 上海交大推出的AI专家Agent的AI专家智能体。在OpenAI的权威基准测试MLE-bench中表现出色,以...
阅读原文

ThinkSound

ThinkSound是阿里通义语音团队推出的首个CoT(链式思考)音频生成模型,用在视频配音,为每一帧画面生成专属匹配音效。模型引入CoT推理,解决传统技术难以捕...
阅读原文

MAI-DxO

MAI-DxO(Microsoft AI Diagnostic Orchestrator)是微软推出的先进人工智能系统,能提升医疗诊断的准确性和效率。基于模拟一组具有不同诊断方法的虚拟医生协...
阅读原文

RecGPT

RecGPT是淘天集团推出的百亿参数推荐大模型。现已全面接入手机淘宝首屏“猜你喜欢”信息流,基于融合多模态认知、用户行为分析及实时热点理解,精准捕捉用户长...
阅读原文

XVerse

XVerse是字节跳动智能创作团队推出的新型多主体控制图像生成模型。模型在文本到图像生成领域实现对多个主体身份和语义属性(如姿势、风格、光照)的精细控制...
阅读原文

Qwen-TTS

Qwen-TTS是阿里通义推出的语音合成模型,具备自然、稳定、快速的特点。模型能根据文本和音色参数输出高质量音频,支持中英文及方言合成,如北京话、上海话、...
阅读原文

Speakr

Speakr是开源免费的AI会议助手,支持确保数据绝对私密的前提下,自动化完成会议录音转写、内容摘要提炼与智能问答。Speakr无需联网就能运行,所有数据处理均...
阅读原文

Deep Video Discovery

Deep Video Discovery(DVD)是微软推出的深度视频探索智能体,专为理解和分析长视频设计。Deep Video Discovery将长视频分割成多个较短的片段,基于大型语言...
阅读原文

FairyGen

FairyGen 是大湾区大学推出的动画故事视频生成框架,支持从单个手绘角色草图出发,生成具有连贯叙事和一致风格的动画故事视频。框架借助多模态大型语言模型(...
阅读原文

WorldVLA

WorldVLA是阿里巴巴达摩院和浙江大学联合推出的自回归动作世界模型,模型将视觉-语言-动作(VLA)模型与世界模型整合到一个单一框架中。模型基于动作和图像理...
阅读原文

AnimaX

AnimaX是北京航空航天大学联合清华大学、香港大学等推出的高效3D动画生成框架,将视频扩散模型的动作先验与基于骨骼的动画结构相结合。框架能将视频中的动作...
阅读原文

Ovis-U1

Ovis-U1是阿里巴巴集团Ovis团队推出的多模态统一模型,拥有30亿参数。模型集成多模态理解、文本到图像生成和图像编辑三种核心能力,基于先进的架构和协同统一...
阅读原文

OAgents

OAgents 是OPPO PersonalAI Lab推出的开源基础Agent框架。框架基于标准化的评估协议和模块化设计,推动Agent框架的研究。OAgents基于系统实证研究,分析关键A...
阅读原文
1678910136