AI项目和框架 - 第 51 页

Soundwave

Soundwave是香港中文大学（深圳）开源的语音理解大模型，专注于语音与文本的智能对齐和理解。通过创新的对齐适配器和压缩适配器技术，有效解决了语音和文本在...

阅读原文

AI工具

7个月前

Motia

Motia 是专为软件工程师设计的 AI Agent 框架，简化 AI 智能体的开发、测试和部署过程。支持多种编程语言，如 Python、TypeScript 和 Ruby，开发者可以使用熟...

阅读原文

AI工具

7个月前

LongCat

LongCat（龙猫）是美团自主研发的生成式大语言模型，通过人工智能技术提升公司内部工作效率和创新能力。模型具备强大的多模态能力，能处理文本、图像等多种数...

AI工具

7个月前

SpatialLM

SpatialLM 是群核科技开源的空间理解多模态模型，赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频，能重建出详细的 3D 场景布局，...

阅读原文

AI工具

7个月前

Multi-Agent Orchestrator

Multi-Agent Orchestrator 是用于管理和协调多个智能代理（Agent）的框架。通过分类器识别用户输入的意图，将请求分配给最适合的代理进行处理，通过对话存储...

AI工具

7个月前

gpt-4o-mini-transcribe

gpt-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型，gpt-4o-transcribe的精简版。gpt-4o-mini-transcribe 基于 GPT-4o-mini 架构，用知识蒸馏技术从大...

阅读原文

AI工具

7个月前

福棠·百川

福棠·百川是是国家儿童医学中心、首都医科大学附属北京儿童医院联合百川智能、小儿方健康共同发布的全球首个儿科大模型。覆盖了儿童常见病及疑难病症的立体化...

阅读原文

AI工具

7个月前

gpt-4o-transcribe

gpt-4o-transcribe是 OpenAI 推出的高性能语音转文本模型。基于最新的语音模型架构，用海量多样化音频数据训练，精准捕捉语音细微差别，显著降低单词错误率（...

阅读原文

AI工具

7个月前

GPT-4o mini TTS

GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型，支持将文本内容转换为自然流畅语音的同时，开发者能用指令控制语音的语调、情感和风格，例如“平静”“...

AI工具

7个月前

Dify-Plus

Dify-Plus 是基于 Dify 二次开发的企业级增强版项目，集成基于 gin-vue-admin 的管理中心。Dify-Plus在 Dify 基础上新增用户额度、密钥额度、Web 公开页登录...

阅读原文

AI工具

7个月前

Crack Coder

Crack Coder 是开源的隐形 AI 辅助工具，专为技术面试设计。Crack Coder支持在后台运行，完全隐形，无法被屏幕录制或监控软件检测到。Crack Coder提供实时 AI...

阅读原文

AI工具

7个月前

YT Navigator

YT Navigator 是 AI 驱动的 YouTube 内容搜索工具，帮助用户高效地搜索和浏览 YouTube 频道内容。YT Navigator自然语言查询功能，让用户快速定位到特定频道视...

阅读原文

AI工具

7个月前

Step-Video-TI2V

Step-Video-TI2V 是阶跃星辰（StepFun）推出的开源图生视频（Image-to-Video）生成模型，拥有 300 亿参数，能根据文本描述和图像输入生成最长 102 帧的视频。...

阅读原文

AI工具

7个月前

InternVL

InternVL 是上海人工智能实验室 OpenGVLab 推出的多模态大模型，专注于视觉与语言任务。采用 ViT-MLP-LLM 架构，通过视觉模块（如 InternViT）和语言模块（如...

阅读原文

AI工具

7个月前

Instella

Instella是AMD推出的系列30亿参数的开源语言模型。模型完全从零开始在AMD Instinct™ MI300X GPU上训练而成，基于自回归Transformer架构，包含36个解码器层和3...

阅读原文

AI工具

7个月前