Step 3.7 Flash开源模型实测 – 多模态 Agent 大脑更省Token

在人工智能应用日益普及的当下,企业对AI的投入已然成为一笔不小的开销,甚至可能超越人力成本。近期,媒体报道中披露的案例令人咋舌:某企业因未限制员工使用AI工具的额度,一个月内便花费了高达5亿美元。无独有偶,在AI Agent测试过程中,因未能及时关闭数十个Agent,某公司一夜间损失了约200万元人民币的Token费用。多Agent协同的生产流程,频繁的多轮交互和工具调用,已成为企业难以承受的成本负担。
正因如此,Flash模型的兴起显得尤为关键。它不再仅仅是旗舰模型的低成本替代,更能深度融入Agent工作流,实现每一步的提速、稳定与节约。近期,阶跃星辰发布了新一代高效Flash开源模型——Step 3.7 Flash。这款模型拥有1980亿参数,采用稀疏MoE(混合专家模型)架构,每个Token激活约110亿参数,支持高达256K的上下文长度,峰值吞吐量可达400 tokens/s,并提供low、medium、high三档推理强度供选择。
本文将聚焦于Step 3.7 Flash在真实复杂场景下的Agent链路效率,摒弃分数与排名,通过实际案例进行深度评测。
01. Coding Agent 的单次指令表现实测
本次评测将结合Claude Code与StepFun的Coding Plan进行。
案例一:多模态感知与UI执行能力
我们尝试让Step 3.7 Flash根据一张手绘草图,构建一个电商运营复盘看板。指令为:“参考草稿图做一个电商运营复盘看板。”
Step 3.7 Flash成功将视觉理解能力融入Agent工作流,精准识别了草图中的手写文字和空间布局,并将其转化为符合现代审美、具备自适应响应式的HTML/CSS/JS网页应用。生成的网页高度还原了草图的细节,包括页面板块、文字以及手绘的小箭头和图标。然而,在“渠道销售额”板块,Step 3.7 Flash遗漏了草图中应有的“全部”选项。
随后,我们指示其根据草图进行优化:“继续优化页面,渠道销售额板块,与原图有出入。按照原图排版在上方添加选项。”
Step 3.7 Flash展现了其多模态能力的进阶应用,不仅能理解图片,更能精准定位到需要修改的部分并进行修正,成功完成了页面的优化。
案例二:视觉搜索与工具增强推理
在比亚迪公布5月份产销快报之际,我们让Step 3.7 Flash进行识别和分析。指令为:“读取图片中的关键信息,并联网生成分析报告。”
此任务不仅考验OCR识别能力,更侧重于模型能否提取关键数据、联网验证背景信息,并最终输出一份具有洞察力的分析报告。Step 3.7 Flash提取的信息精准无误。生成的报告抓住了几个关键点:2026年5月,比亚迪新能源汽车销量为383,453辆,产量为380,549辆。1月至5月累计销量同比下降20.32%,但5月产量增长8.78%,销量增长0.26%,显示出明显的复苏迹象,是产销两端恢复性增长的重要拐点。此外,报告还指出5月出口占新能源汽车总销量的41.9%,出口已成为比亚迪重要的增长引擎。
案例三:视觉理解能力展现
我们上传了一张调音台照片,并询问:“麦克风怎么调。”
Step 3.7 Flash准确识别出这是一台NFM M系列专业调音台,并基于其对调音台的理解,指出了调节麦克风需要关注的通道、GAIN、FADER、MUTE、AUX以及主输出等关键区域。对于初学者而言,Step 3.7 Flash提供的排查流程,能够有效指导解决“麦克风无声”、“声音过小”或“出现啸叫”等常见问题。其逻辑清晰,特别是强调了先检查MUTE、再调整增益、然后推通道推子、最后检查主输出的顺序,展现了强大的视觉理解能力。
案例四:图片转化为互动地图
指令如下:“请将文件夹中的图片直接作为输入,不提供额外背景说明。请一次性完成整个工作流程。目标:创建一个完整的、可演示的单页HTML城市导览页面,文件名ucsd-tour.html。页面要求能够:1.识别提供的图片中的地标。2.通过网页搜索验证识别结果。3.将图片复制到当前工作目录并按合适名称保存。4.构建一个美观、交互式的地图式城市导览指南。重要输入规则:仅使用直接提供的图片作为输入。不扫描文件夹或目录寻找额外图片。不导入当前目录中无关的图片。将提供的图片视为完整的图片集。”
生成的网页在整体布局上较为成功,包含了首页、地图、地点介绍和导览路线图等模块,排版也较为得体。Step 3.7 Flash准确识别了7个地标,证明了其在视觉理解和网页搜索方面的能力。然而,在仔细检查后发现,地标名称与图片未能完全对应,模型在多文件管理、路径映射和资源命名方面仍有提升空间。此外,生成的地图仅初步勾勒了方位,缺乏实际地图的细节,且地标的方位与实际地理位置存在偏差。总而言之,Step 3.7 Flash完成了核心的识别任务,但在细节处理上尚待完善。
在实际交互过程中,Step 3.7 Flash最直观的优势在于其卓越的响应速度。尽管在处理多文件映射、精确空间逻辑等复杂任务时,偶尔会暴露出一些细节上的不足,但其快速的响应速度与多模态感知能力的结合,在多轮交互中展现出高效的纠错能力,从而以更低的延迟和成本,为复杂的Agent链路提供了更大的容错空间。
本次评测的实际Token消耗量,仅占Coding Plan套餐周额度的15%左右。得益于MoE架构的成本优势,即使Agent在长工作流中需要进行高频的多轮迭代、检索和纠错,其算力成本依然能够保持在企业可接受的范围内。
有了Step 3.7 Flash这样面向生产级Agent的高效Flash模型,Agent在应对真实任务时,能够以更快、更稳、更省的方式完成整个工作流,彻底摆脱过去那种高昂Token消耗的困境。
当前,大模型应用正朝着务实的路线发展。当企业不再为高昂的账单和延迟而焦虑时,AI才能真正从单纯的展示工具,转变为工业级生产线上稳定运转的生产力引擎。


