AI项目和框架

英伟达推出的视觉语言大模型

NVILA是NVIDIA推出的系列视觉语言模型，能平衡效率和准确性。模型用“先扩展后压缩”策略，有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化...

阅读原文

AI工具

10个月前

O1-CODER：智能编码助手O1版提升开发效率与代码质量

O1-CODER是北京交通大学研究团队推出的开源项目，旨在复制OpenAI的O1模型，专注于编码任务。O1-CODER结合强化学习（RL）和蒙特卡洛树搜索（MCTS）技术，提升...

阅读原文

AI工具

10个月前

南洋理工推出的VR端3D角色扮演AI系统

SOLAMI是创新的VR端3D角色扮演AI系统，是南洋理工大学研究团队推出的。支持用户用语音和肢体语言与虚拟角色进行沉浸式互动，基于社交视觉-语言-行为模型，提...

阅读原文

AI工具

10个月前

clone-voice：多语言声音克隆工具支持16种语言，实现个性化语音合成

Clone-voice是开源的声音克隆工具，基于深度学习技术分析和模拟人类声音，实现声音的高质量克隆。工具支持包括中文、英文、日语、韩语等在内的16种语言，能将...

阅读原文

AI工具

10个月前

AI文本到图像生成框架，提升单步扩散模型的效率和性能

SNOOPI是创新的文本到图像生成框架，基于增强单步扩散模型的指导提升模型性能和控制力。SNOOPI包括PG-SB（适当指导 - SwiftBrush）和NASA（负向远离转向注意...

阅读原文

AI工具

10个月前

音频驱动的生成肖像说话视频框架，保持身份一致性和表现力

MEMO（Memory-Guided EMOtionaware diffusion）是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架，用在生成具有身份一致性和表现力的...

阅读原文

AI工具

10个月前

xAI为Grok AI助手推出的新图像生成模型

Aurora是xAI为AI助手Grok新增的图像生成模型。Aurora擅长创建逼真的图像，擅长人物肖像。Aurora能生成包括公共和版权人物在内的图像（如米老鼠）。Aurora 的...

阅读原文

AI工具

10个月前

One Shot, One Talk：中科大与香港理工携手打造创新动态图像生成技术，实现实时创作与智能化设计

One Shot, One Talk是先进的图像生成技术，能从单张图片中生成具有个性化细节的全身动态说话头像，支持逼真的动画效果，包括自然的表情变化和生动的身体动作...

阅读原文

AI工具

10个月前

智谱 AI 免费开放图像理解大模型

GLM-4V-Flash是智谱AI推出的专注于图像理解的AI模型，提供免费的API接口，支持用户上传图片URL或Base64编码图片获取详细的图像描述。模型简化图像分析流程，...

阅读原文

AI工具

10个月前

Meta AI推出的纯文本语言模型

Llama 3.3是Meta AI推出的70B 参数模型，大型多语言预训练语言模型，性能与40B参数的Llama 3.1相当。模型专为多语言对话优化，支持英语、德语、法语、意大利...

阅读原文

AI工具

10个月前

TensorOpera 开源的小语言模型系列

Fox-1是TensorOpera推出的一系列小型语言模型（SLMs），包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。Fox-1模型在3万亿个网络抓取的文档数据上预训练，在50亿...

阅读原文

AI工具

10个月前

PaliGemma 2：DeepMind推出性视觉语言模型，实现跨媒体理解与生成

PaliGemma 2是Google DeepMind基于Gemma 2语言模型家族推出的新一代视觉语言模型（VLM），作为PaliGemma模型的升级版。结合SigLIP-So400m视觉编码器和不同规...

阅读原文

AI工具

10个月前

哈工大联合鹏城实验室推出的智能体框架

Optimus-1是哈尔滨工业大学（深圳）和鹏城实验室推出的智能体框架，能解决在开放世界环境中完成长期任务的挑战。框架结合结构化知识和多模态经验，让智能体更...

阅读原文

AI工具

10个月前

ClearerVoice-Studio：智能语音处理框架助力多场景应用的高效解决方案

ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架，集成语音增强、分离和音视频说话人提取等功能。框架基于复数域深度学习算法，有效消除...

阅读原文

AI工具

10个月前

字节豆包联合M-A-P社区开源的全新代码评估基准

FullStack Bench是字节跳动豆包大模型团队与M-A-P社区联合推出的全新代码评估基准，专注于全栈编程和多语言编程能力评估。FullStack Bench覆盖超过11种真实编...

阅读原文

AI工具

10个月前

1…91 929394 95…148