标签:多模态理解

WPS接入DeepSeek,秒变办公神器!

WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
阅读原文

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

文心大模型5.0

文心大模型5.0(文心5.0)是百度推出的原生全模态大模型,参数量达2.4万亿。模型采用统一自回归架构,实现文本、图像、音频、视频等多模态数据的理解与生成一...
阅读原文

ERNIE-4.5-VL

ERNIE-4.5-VL是百度文心开源的新一代多模态AI模型,基于ERNIE-4.5-VL-28B-A3B架构,激活参数3B,主打视觉语言理解与跨模态推理。模型通过海量视觉-语言数据训...
阅读原文

DeepSeek-V3.2

DeepSeek-V3.2-Exp是DeepSeek-AI推出的实验性人工智能模型,通过引入DeepSeek Sparse Attention(DSA)机制,显著提升长文本处理的效率。模型基于DeepSeek-V3...
阅读原文

Qwen3-Omni

Qwen3-Omni是阿里通义团队推出的业界首个原生端到端全模态AI模型,能无缝处理文本、图像、音频和视频等多种模态数据。模型在36项音频及音视频基准测试中22项...
阅读原文

InternVL3.5

InternVL3.5(书生·万象3.5)是上海人工智能实验室开源的多模态大模型,模型在通用能力、推理能力和部署效率上全面升级,提供从10亿到2410亿参数的九种尺寸版...
阅读原文

DeepSeek V3.1

DeepSeek V3.1是DeepSeek最新推出的AI模型版本,具备混合推理架构,能自由切换思考模式与非思考模式,思考效率显著提升。模型在V3的基础上进行多项升级,上下...
阅读原文

SlowFast-LLaVA-1.5

SlowFast-LLaVA-1.5(简称SF-LLaVA-1.5)是专为长视频理解设计的高效视频大语言模型。基于双流(SlowFast)机制,平衡处理更多输入帧与减少每帧令牌数量之间...
阅读原文

GLM-4.5V

GLM-4.5V是智谱开源的最新一代视觉推理模型。模型基于106B参数规模构建,拥有12B激活能力,是目前领先的视觉语言模型(VLM)。模型在GLM-4.1V-Thinking的基础...
阅读原文

Baichuan-M2

Baichuan-M2 是百川智能推出的开源医疗增强大模型。在医疗领域表现卓越,于HealthBench评测中以60.1分超越OpenAI的gpt-oss120b等众多开源模型,登顶世界第一...
阅读原文

Gemini 2.5 Deep Think

Gemini 2.5 Deep Think 是谷歌推出的 AI 模型,专为解决复杂任务设计。是获得 2025 年国际数学奥林匹克竞赛(IMO)金牌的模型的变体,通过并行思考技术(Para...
阅读原文

GLM-4.5

GLM-4.5 是智谱推出的新一代旗舰模型,专为智能体应用打造,是首款原生融合推理、代码和智能体能力的开源 SOTA 模型。采用混合专家(MoE)架构,有两个版本:...
阅读原文

OpenReasoning-Nemotron

OpenReasoning-Nemotron是英伟达开源的一系列推理能力强大的大型语言模型(LLM),基于DeepSeek R1 0528 模型蒸馏而成,参数规模涵盖1.5B、7B、14B和32B。
阅读原文

GLM-Experimental

GLM-Experimental 是智谱AI推出的实验性大语言模型,已在旗下平台 Z.ai 上线。模型支持自动生成PPT,用户只需输入主题或内容要点,可快速生成结构清晰、格式...
阅读原文

DeepSeek R1T2

DeepSeek R1T2 (DeepSeek-TNG R1T2 Chimera)是TNG基于 DeepSeek 原始模型开发的改进型人工智能语言模型。采用 Tri-Mind 架构,融合了 DeepSeek R1-0528、R1...
阅读原文

GLM-4.1V-Thinking

GLM-4.1V-Thinking是智谱AI推出的开源视觉语言模型,专为复杂认知任务设计,支持图像、视频、文档等多模态输入。模型在GLM-4V架构基础上引入思维链推理机制,...
阅读原文
123