标签:视觉问答
WPS接入DeepSeek,秒变办公神器!
WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
豆包大模型1.6-vision
豆包大模型1.6-vision是火山引擎推出的具备工具调用能力的视觉深度思考模型。模型拥有强大的通用多模态理解和推理能力,支持Responses API,能自主调用工具如...
美团提出统一多模态模型OneCAT,一键搞定视觉问答/图像编辑/文生图任务,性能表现SOTA。
添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球!可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和...
InternVL3.5
InternVL3.5(书生·万象3.5)是上海人工智能实验室开源的多模态大模型,模型在通用能力、推理能力和部署效率上全面升级,提供从10亿到2410亿参数的九种尺寸版...
SlowFast-LLaVA-1.5
SlowFast-LLaVA-1.5(简称SF-LLaVA-1.5)是专为长视频理解设计的高效视频大语言模型。基于双流(SlowFast)机制,平衡处理更多输入帧与减少每帧令牌数量之间...
LLaVA-OneVision
LLaVA-OneVision是字节跳动推出开源的多模态AI模型,LLaVA-OneVision通过整合数据、模型和视觉表示的见解,能同时处理单图像、多图像和视频场景下的计算机视...