标签：视觉问答

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

1年前 (2025)

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

1年前 (2024)

ERNIE-4.5-VL

ERNIE-4.5-VL是百度文心开源的新一代多模态AI模型，基于ERNIE-4.5-VL-28B-A3B架构，激活参数3B，主打视觉语言理解与跨模态推理。模型通过海量视觉-语言数据训...

阅读原文

AI工具

4个月前

SAIL-VL2

SAIL-VL2 是抖音团队和新加坡国立大学联合开发的开源视觉语言基础模型，专注于多模态理解和推理。由视觉编码器 SAIL-ViT、视觉-语言适配器和大语言模型组成，...

阅读原文

AI工具

5个月前

豆包大模型1.6-vision

豆包大模型1.6-vision是火山引擎推出的具备工具调用能力的视觉深度思考模型。模型拥有强大的通用多模态理解和推理能力，支持Responses API，能自主调用工具如...

阅读原文

AI工具

5个月前

Qwen3-VL

Qwen3-VL 是阿里通义推出的 Qwen 系列中最强大的视觉语言模型，具备卓越的多模态能力。模型能理解纯文本、图像和视频，支持长上下文、空间感知、代码生成等功...

阅读原文

AI工具

5个月前

美团提出统一多模态模型OneCAT，一键搞定视觉问答/图像编辑/文生图任务，性能表现SOTA。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和...

阅读原文

AIGC动态

5个月前

InternVL3.5

InternVL3.5（书生·万象3.5）是上海人工智能实验室开源的多模态大模型，模型在通用能力、推理能力和部署效率上全面升级，提供从10亿到2410亿参数的九种尺寸版...

阅读原文

AI工具

6个月前

SlowFast-LLaVA-1.5

SlowFast-LLaVA-1.5（简称SF-LLaVA-1.5）是专为长视频理解设计的高效视频大语言模型。基于双流（SlowFast）机制，平衡处理更多输入帧与减少每帧令牌数量之间...

阅读原文

AI工具

6个月前

dots.vlm1

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型（LLM），具备强大的视觉感知...

阅读原文

AI工具

7个月前

Qwen VLo

Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。在多模态大模型的基础上进行了全面升级，能“看懂”世界，能基于理解进行高质量的再创造，实现了从感...

阅读原文

AI工具

8个月前

SmolVLA

SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动（VLA）模型，专为经济高效的机器人设计。拥有4.5亿参数，模型小巧，可在CPU上运行，单个消费级GPU即可...

阅读原文

AI工具

9个月前

FastVLM

FastVLM是苹果推出的高效的视觉语言模型（VLM），能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器，有效减少视觉token数量，显著...

阅读原文

AI工具

10个月前

mPLUG-Owl3

mPLUG-Owl3是阿里巴巴推出的先进通用多模态大模型，专为理解和处理多图及长视频设计。在保持准确性的同时，显著提升了推理效率，能在4秒内分析完2小时电影。

阅读原文

AI工具

1年前 (2024)

LLaVA-OneVision

LLaVA-OneVision是字节跳动推出开源的多模态AI模型，LLaVA-OneVision通过整合数据、模型和视觉表示的见解，能同时处理单图像、多图像和视频场景下的计算机视...

阅读原文

AI工具

1年前 (2024)