AI项目和框架

InternVLA·M1

InternVLA·M1 是上海人工智能实验室开发的具身操作“大脑”,是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环,负责高阶的空间推...
阅读原文

VLAC

VLAC是上海人工智能实验室发布的具身奖励大模型。以InternVL多模态大模型为基础,融合互联网视频数据和机器人操作数据,为机器人在真实世界中的强化学习提供...
阅读原文

RustGPT

RustGPT 是用 Rust 编写的 Transformer 架构语言模型。RustGPT从零开始构建,不依赖任何外部机器学习框架,仅用 ndarray 进行矩阵运算。
阅读原文

PromptEnhancer

PromptEnhancer是腾讯混元团队开源的用在提升文本到图像(T2I)模型的提示重写框架,通过思维链(Chain-of-Thought,CoT)提示重写和专用的奖励模型AlignEval...
阅读原文

Nano Bananary

Nano Bananary(香蕉超市) 是开源的图像编辑工具,基于 Google Gemini 图像模型开发,支持中文界面和明暗主题切换,提供 50 多种图像转换效果,无需复杂提示...
阅读原文

InfiniteTalk

InfiniteTalk是美团视觉智能部推出的新型数字人驱动技术,通过稀疏帧video dubbing范式,仅需少量关键帧能驱动数字人人生成自然流畅的视频,解决传统技术中口...
阅读原文

LLaSO

LLaSO(Large Language and Speech Model)是北京深度逻辑智能科技有限公司推出的全球首个完全开源的语音模型,能解决大型语音语言模型(LSLM)领域长期存在...
阅读原文

Lumina-DiMOO

Lumina-DiMOO是上海人工智能实验室等机构开源的新一代多模态生成与理解模型。模型采用全离散扩散架构,统一处理文本、图像等多模态数据,支持文本到图像生成...
阅读原文

UnifoLM-WMA-0

UnifoLM-WMA-0 是宇树科技开源的跨多类机器人本体的世界模型 - 动作架构,专为通用机器人学习设计。核心是世界模型,能理解机器人与环境的物理交互,具备仿真...
阅读原文

GPT-5-Codex

GPT-5-Codex 是 OpenAI 推出的专为编程优化的模型,基于 GPT-5 进一步强化。模型聚焦于真实世界的软件工程任务,如从零搭建项目、代码重构、调试、测试和代码...
阅读原文

ROMA

ROMA(Recursive Open Meta-Agent) 是Sentient AGI团队开源的多Agent系统框架,通过递归层次结构将复杂任务拆解为可并行的子任务,由父节点分配给子节点执行...
阅读原文

Grok 4 Fast

Grok 4 Fast是xAI推出的快速版人工智能模型,最大的特点是响应速度快,最高可达标准版的10倍,生成速度每秒75个token,能快速完成简单查询、基础代码生成等任...
阅读原文

Mini-o3

Mini-o3 是字节跳动和香港大学联合推出的开源模型,专为解决复杂的视觉搜索问题而设计。模型通过强化学习和基于图像的工具,能执行深度多轮推理,推理轮次可...
阅读原文

ERNIE-4.5-21B-A3B-Thinking

ERNIE-4.5-21B-A3B-Thinking 是百度推出的专注于推理任务的大型语言模型。采用混合专家(MoE)架构,总参数量达210亿,每个token激活30亿参数,支持128K的长...
阅读原文

FunAudio-ASR

FunAudio-ASR 是阿里巴巴达摩院推出的端到端语音识别大模型,专为解决企业落地中的关键问题设计。通过创新的 Context 增强模块,有效优化了“幻觉”和“串语种”...
阅读原文
134567147