AI项目和框架

VideoLLaMB

VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信息。模型特别设计用于理解长时间视...
阅读原文

MagicMan

MagicMan 是清华大学深圳国际研究生院、腾讯AI实验室、香港科技大学、斯坦福大学和香港中文大学的研究团队共同推出的AI项目,专注于基于深度学习技术从单张2D...
阅读原文

DeepSeek-Coder-V2

DeepSeek-Coder-V2 是由DeepSeek推出的开源代码语言模型,在代码特定任务中的表现与 GPT4-Turbo 相媲美。模型在 DeepSeek-V2 的基础上,额外预训练了 6 万亿...
阅读原文

AppFlowy

AppFlowy 是一个开源的笔记和任务管理工具,被设计为 Notion 的替代品,提供了更好的隐私保护。使用 Rust 和 Flutter 构建,遵循极简原则,提供了足够的调整...
阅读原文

丰语大模型

丰语大模型是顺丰科技推出的物流行业专用大语言模型。顺丰科技表示,丰语大模型以更小的尺寸模型对更大尺寸通用模型在物流垂域的全面超越。丰语大模型已在市...
阅读原文

SAM2Point

SAM2Point是基于SAM2的3D分割技术,无需额外训练或 2D-3D 投影,直接对任意3D数据进行零样本分割。通过将3D数据体素化,模拟为多方向视频流,基于SAM2实现精...
阅读原文

CodeFuse-muAgent

CodeFuse-muAgent 是蚂蚁集团 CodeFuse 团队开发的多智能体框架,基于知识图谱引擎来驱动智能体的编排和协作。简化智能体的标准操作程序编排流程。通过集成工...
阅读原文

VoxInstruct

VoxInstruct 是由清华大学开源的语音合成技术,能根据人类语言指令生成高度符合用户需求的语音。系统采用统一的多语言编解码器语言建模框架,将传统的文本到...
阅读原文

Pixtral 12B

Pixtral 12B 是法国AI初创公司Mistral推出的首款多模态AI模型,能同时处理图像和文本。模型拥有 120 亿参数,模型大小约为 24GB,基于文本模型 Nemo 12B构建...
阅读原文

MMRole

MMRole是由中国人民大学高瓴人工智能学院研究团队推出的的一种多模态角色扮演智能体(MRPA)框架。通过结合图像和文本,使智能体以特定角色进行更自然和沉浸...
阅读原文

ReHiFace-S

RReHiFace-S是由硅基智能团队推出的开源项目,实现高保真、实时人脸替换的AI算法,用户通过简单的操作在视频或直播中进行面部交换。
阅读原文

NarratoAI

NarratoAI 是基于AI技术自动化影视解说和编辑的工具。通过大型语言模型(LLM)理解视频内容,自动生成解说文案,并将文案转化为配音,同时进行视频剪辑和字幕...
阅读原文

Skywork-Reward

Skywork-Reward 是昆仑万维推出的一系列高性能奖励模型,包括 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。主要用于指导和优化大语言模型的...
阅读原文

Torch-MLU

Torch-MLU 是寒武纪开源的 PyTorch 设备后端扩展插件,支持开发者将寒武纪 MLU 系列智能加速卡作为 PyTorch 的加速后端使用。插件实现了对 PyTorch 的原生支...
阅读原文

ImageBind

ImageBind是Meta公司推出的开源多模态AI模型,将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥...
阅读原文