AI项目和框架 - 第 10 页

FLUX.2

FLUX.2 是 Black Forest Labs 推出的视觉智能模型，专为实际创意工作流程设计。模型支持最多 10 张图片的多图参考，生成高达 4MP 分辨率的高质量图像，具备极...

阅读原文

AI工具

2个月前

ViMax

ViMax 是香港大学数据科学实验室推出的端到端多智能体视频生成框架，支持将创意、剧本或小说自动转化为完整视频。框架整合导演、编剧、制片人和视频生成器的...

阅读原文

AI工具

2个月前

Fara-7B

Fara-7B 是微软开源的专注于计算机使用的代理型小语言模型（SLM）。模型通过视觉感知网页，操作鼠标、键盘等界面元素来帮助用户完成任务，如填写表单、搜索信...

阅读原文

AI工具

2个月前

HunyuanOCR

HunyuanOCR 是腾讯混元团队推出的开源的端到端OCR视觉语言模型。依托混元原生多模态架构，仅用1B参数就实现了多项OCR任务的SOTA性能。具备高效轻量的架构，单...

阅读原文

AI工具

2个月前

Teammates

Teammates是育碧基于生成式AI技术推出的AI队友项目，能为玩家提供更具沉浸感和真实感的游戏体验。玩家能通过语音实时指挥AI队友，如“帕布罗，掩护我”或“索菲...

阅读原文

AI工具

2个月前

Claude Opus 4.5

Claude Opus 4.5 是 Anthropic 公司最新推出的先进 AI 模型。模型在编程、系统级任务、日常研究和文档处理等方面表现出色，擅长处理复杂的软件工程问题，能在...

阅读原文

AI工具

2个月前

WorldGen

WorldGen 是 Meta 最新推出的先进端到端系统，能通过一段文本提示生成可交互、可导航的 3D 世界。用户只需输入简单的描述，如“中世纪村庄”或“火星基地”，系统...

阅读原文

AI工具

2个月前

Olmo 3

Olmo 3 是 Allen Institute for Artificial Intelligence (AI2) 推出的系列开源大型语言模型。模型包括多个版本，Olmo 3-Base（基础模型，7B 和 32B 参数）在...

阅读原文

AI工具

2个月前

Supertonic

Supertonic 是 Supertone 开源的高性能文本转语音（TTS）系统，具备极速性能和轻量级。仅包含66M参数，生成语音的速度可达167倍实时速度，是目前最快的TTS系...

阅读原文

AI工具

2个月前

MiMo-Embodied

MiMo-Embodied 是小米发布的全球首个开源的跨领域具身大模型，整合了自动驾驶和具身智能两大领域的任务，实现了在环境感知、任务规划、空间理解等多方面的卓...

阅读原文

AI工具

2个月前

HunyuanVideo 1.5

HunyuanVideo 1.5 是腾讯混元团队开源的轻量级视频生成模型，参数规模为8.3B。模型基于Diffusion Transformer架构，支持通过文字描述或图片生成5-10秒的高清...

阅读原文

AI工具

2个月前

Seekdb

Seekdb是OceanBase开源的AI原生数据库，解决AI应用开发中多模态数据融合与实时处理的痛点。支持向量检索、全文搜索与结构化数据过滤的融合查询，一条SQL即可...

阅读原文

AI工具

2个月前

SAM 3

SAM 3（Segment Anything Model 3）是 Meta AI 最新推出的先进计算机视觉模型，能通过文本、示例和视觉提示检测、分割和跟踪图像及视频中的对象。

阅读原文

AI工具

2个月前

GPT-5.1-Codex-Max

GPT-5.1-Codex-Max 是 OpenAI 推出的智能编程模型，专为复杂、长周期的开发任务设计。模型基于更新的推理架构，通过“压缩”技术跨越多个上下文窗口，能处理数...

阅读原文

AI工具

2个月前

LoopTool

LoopTool 是上海交通大学和小红书团队推出的自动化、模型感知、迭代式的数据进化框架，能提升大语言模型（LLM）在工具调用任务上的性能。框架通过闭环优化，...

阅读原文

AI工具

2个月前