多模态理解 - OpenI

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

1年前 (2025)

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

2年前 (2024)

Gemma 4 12B

Gemma 4 12B是谷歌开源的多模态大模型，采用业界首个无编码器统一架构，视觉和音频数据直接输入LLM主干，彻底砍掉独立编码器。

阅读原文

AI工具

1周前

Qwen3.7 Preview

Qwen3.7 Preview 是阿里通义千问团队推出的下一代旗舰大模型预览版，包含Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview两个版本。

阅读原文

AI工具

4周前

Qwen3.5-Omni

Qwen3.5-Omni 是阿里通义实验室推出的全模态大模型，可同时理解文本、图像、音频及音视频输入。模型采用Thinker-Talker分工架构与Hybrid-MoE技术，在215项音...

阅读原文

AI工具

2个月前

GLM-5-Turbo

GLM-5-Turbo（代号：Pony-Alpha-2）是智谱AI推出的面向OpenClaw（龙虾）Agent场景深度优化的基座模型。模型从训练阶段就针对工具调用、复杂指令遵循、定时与...

阅读原文

AI工具

3个月前

InternVL-U

InternVL-U是上海人工智能实验室联合多所顶尖高校开源的4B参数轻量化统一多模态模型，首次实现"理解—推理—生成—编辑"端到端闭环。模型采用"统...

阅读原文

AI工具

3个月前

Qwen3.5

Qwen3.5是阿里巴巴通义千问团队正式发布并开源的新一代原生多模态大模型。首发开源版本Qwen3.5-397B-A17B采用创新的混合架构，将线性注意力（Gated Delta Net...

阅读原文

AI工具

4个月前

Claude Opus 4.6

Claude Opus 4.6是Anthropic推出的旗舰AI模型，为Claude Opus 4.5的升级版本。模型首次支持100万token超长上下文窗口，在编程、推理和复杂任务处理上全面领先。

阅读原文

AI工具

4个月前

文心大模型5.0

文心大模型5.0（文心5.0）是百度推出的原生全模态大模型，参数量达2.4万亿。模型采用统一自回归架构，实现文本、图像、音频、视频等多模态数据的理解与生成一...

阅读原文

AI工具

7个月前

ERNIE-4.5-VL

ERNIE-4.5-VL是百度文心开源的新一代多模态AI模型，基于ERNIE-4.5-VL-28B-A3B架构，激活参数3B，主打视觉语言理解与跨模态推理。模型通过海量视觉-语言数据训...

阅读原文

AI工具

7个月前

DeepSeek-V3.2

DeepSeek-V3.2-Exp是DeepSeek-AI推出的实验性人工智能模型，通过引入DeepSeek Sparse Attention（DSA）机制，显著提升长文本处理的效率。模型基于DeepSeek-V3...

阅读原文

AI工具

9个月前

Qwen3-Omni

Qwen3-Omni是阿里通义团队推出的业界首个原生端到端全模态AI模型，能无缝处理文本、图像、音频和视频等多种模态数据。模型在36项音频及音视频基准测试中22项...

阅读原文

AI工具

9个月前

InternVL3.5

InternVL3.5（书生·万象3.5）是上海人工智能实验室开源的多模态大模型，模型在通用能力、推理能力和部署效率上全面升级，提供从10亿到2410亿参数的九种尺寸版...

阅读原文

AI工具

10个月前

DeepSeek V3.1

DeepSeek V3.1是DeepSeek最新推出的AI模型版本，具备混合推理架构，能自由切换思考模式与非思考模式，思考效率显著提升。模型在V3的基础上进行多项升级，上下...

阅读原文

AI工具

10个月前

SlowFast-LLaVA-1.5

SlowFast-LLaVA-1.5（简称SF-LLaVA-1.5）是专为长视频理解设计的高效视频大语言模型。基于双流（SlowFast）机制，平衡处理更多输入帧与减少每帧令牌数量之间...

阅读原文

AI工具

10个月前

GLM-4.5V

GLM-4.5V是智谱开源的最新一代视觉推理模型。模型基于106B参数规模构建，拥有12B激活能力，是目前领先的视觉语言模型（VLM）。模型在GLM-4.1V-Thinking的基础...

阅读原文

AI工具

10个月前

标签：多模态理解