标签:自然语言处理

OmniTalker

OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。核心架构为 T...

枝页

枝页(iBleaf)是基于金字塔原理设计的AI笔记工具,帮助用户将碎片化的知识整理成清晰有序的知识体系。通过知识树的形式,让用户能以层级化的结构组织笔记,...
阅读原文

Dolphin

Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言(含...
阅读原文

OpenAI Academy

OpenAI Academy是OpenAI推出的免费AI学习平台,提供免费的AI课程帮助普通人掌握AI技能。OpenAI Academy提供丰富多样的课程,包括《ChatGPT Edu学术助手指南》...
阅读原文

AutoAgent

AutoAgent 是香港大学推出的零代码、自动化 LLM 智能体框架。基于自然语言交互,让用户无需编程即可创建智能助手,适用于智能搜索、数据分析、报告生成等场景...
阅读原文

Amodal3R

Amodal3R 是条件式 3D 生成模型,能从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观。模型基于“基础”3D 生成模型 TRELLIS 构建,通过引入掩码加权...
阅读原文

Amazon Nova Act

Amazon Nova Act是亚马逊 AGI Labs推出的通用AI代理,用于在网页浏览器中执行任务。Amazon Nova Act支持开发者基于配套的 SDK 构建智能体应用原型,完成如提...
阅读原文

Actor Mode

Actor Mode 是 ElevenLabs 推出的AI语音生成工具,支持用户通过自己的声音指导 AI 生成语音内容。用户只需录制一段音频或上传已有音频文件,AI 能分析其语调...
阅读原文

GLM-Z1-Air

GLM-Z1-Air 是智谱公司推出的基于 GLM-4-Air-0414 的深度思考模型。GLM-Z1-Air在预训练阶段引入更多推理类数据,在对齐阶段深度优化通用能力,展现出强大的数...
阅读原文

GLM-4-Air-0414

GLM-4-Air-0414是智谱公司推出的拥有320亿参数的基座模型,是AutoGLM沉思背后的模型。GLM-4-Air-0414在预训练阶段加入更多代码类、推理类数据,针对智能体能...
阅读原文

Alpha Engine

Alpha Engine 是面向全球资本市场的 AI 投研平台,为投研人员提供高效、智能的投研解决方案。拥有全面深度的投研数据库,涵盖海量会议纪要、海内外研报等资料...
阅读原文

OpenDeepSearch

OpenDeepSearch 是开源的深度搜索工具,基于开源推理模型和推理代理提升搜索性能,专为  Hugging Face 的 SmolAgents 无缝集成进行优化,支持深度网络搜索和...
阅读原文

AutoGLM沉思

AutoGLM沉思是智谱推出的首个免费、具备深度研究和操作能力的AI Agent,能模拟人类思维过程,处理复杂的开放式问题。AutoGLM沉思具备强大的推理能力和自主操...
阅读原文

PaddleSpeech

PaddleSpeech 是百度飞桨团队开源的语音处理工具,提供全面的语音处理功能,包括语音识别、语音合成、声纹识别、语音翻译等。PaddleSpeech提供命令行界面、服...
阅读原文

ChatAnyone

ChatAnyone是阿里巴巴通义实验室推出的实时风格化肖像视频生成框架。通过音频输入,生成具有丰富表情和上半身动作的肖像视频。采用高效分层运动扩散模型和混...
阅读原文
191011121367