AI项目和框架 - 第 45 页

TrackVLA

TrackVLA是银河通用推出的产品级端到端导航大模型。模型具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力，能实现从视觉感知到动作输出的全链路...

阅读原文

AI工具

8个月前

TEN VAD

TEN VAD 是高性能的实时语音活动检测系统，专为企业级应用设计。TEN VAD能精确地检测音频流中的语音活动，具有低延迟、轻量级和高精度的特点。TEN VAD 基于先...

阅读原文

AI工具

8个月前

Google AI Edge Gallery

Google AI Edge Gallery 是谷歌推出的实验性应用，支持让用户在本地设备上体验和使用机器学习（ML）及生成式人工智能（GenAI）模型。应用目前支持在 Android...

阅读原文

AI工具

8个月前

从容大模型

从容大模型是云从科技推出的多模态AI模型。模型在国际权威评测平台OpenCompass的多模态榜单中以80.7分登顶，超越谷歌、OpenAI等顶尖团队。

阅读原文

AI工具

8个月前

DeepEyes

DeepEyes 是小红书团队和西安交通大学联合推出的多模态深度思考模型。基于端到端强化学习，实现类似 OpenAI o3 的“用图思考”能力，无需依赖监督微调（SFT）。...

阅读原文

AI工具

8个月前

Circuit Tracer

Circuit Tracer 是 Anthropic 推出的开源工具，用在研究大型语言模型的内部工作机制。Circuit Tracer 基于生成归因图（attribution graphs）揭示模型在生成特...

阅读原文

AI工具

8个月前

DGM

DGM（Darwin Gödel Machine）是自改进人工智能系统，通过迭代修改自身代码来提升性能。DGM从其维护的编码代理档案中选择一个代理，基于基础模型生成新版本，...

阅读原文

AI工具

8个月前

SignGemma

SignGemma 是谷歌 DeepMind 团队推出的全球最强大的手语翻译AI模型。专注于将美国手语（ASL）翻译成英语文本，通过多模态训练方法，结合视觉数据和文本数据，...

阅读原文

AI工具

8个月前

FLUX.1 Kontext

FLUX.1 Kontext 是由 Black Forest Labs 推出的图像生成与编辑模型，支持上下文感知的图像处理。模型基于文本和图像提示进行生成与编辑，支持对象修改、风格...

阅读原文

AI工具

8个月前

EVI 3

EVI 3是Hume AI推出的全新语音语言模型，模型能同时处理文本和语音标记，实现自然、富有表现力的语音交互。模型支持高度个性化，根据用户提示生成任何声音和...

阅读原文

AI工具

8个月前

OmniSync

OmniSync是中国人民大学、快手科技和清华大学联合推出的通用对口型框架，基于扩散变换器（Diffusion Transformers）实现视频中人物口型与语音的精准同步。Omn...

阅读原文

AI工具

8个月前

Mobvoi MCP Server

Mobvoi MCP Server 是出门问问推出的一站式集成各项 AI 能力的工具，Mobvoi MCP Server集成语音生成、声音克隆、图片驱动数字人、视频配音等多项多模态 AI 能...

阅读原文

AI工具

8个月前

FLUX.1Kontext

FLUX.1 Kontext 是由 Black Forest Labs 推出的图像生成与编辑模型，支持上下文感知的图像处理。模型基于文本和图像提示进行生成与编辑，支持对象修改、风格...

阅读原文

AI工具

8个月前

SearchAgent-X

SearchAgent-X 是南开大学和伊利诺伊大学厄巴纳香槟分校（UIUC）研究人员推出的高效推理框架，能提升基于大型语言模型（LLM）的搜索Agent的效率。

阅读原文

AI工具

8个月前

WebAgent

WebAgent是阿里巴巴开源的自主搜索AI Agent，具备端到端的自主信息检索与多步推理能力。WebAgent能像人类一样在网络环境中主动感知、决策和行动，应用在学术...

阅读原文

AI工具

8个月前