Step 3.7 Flash开源模型实测

Step 3.7 Flash开源模型实测 – 多模态 Agent 大脑更省Token

在人工智能应用日益普及的当下，企业对AI的投入已然成为一笔不小的开销，甚至可能超越人力成本。近期，媒体报道中披露的案例令人咋舌：某企业因未限制员工使用AI工具的额度，一个月内便花费了高达5亿美元。无独有偶，在AI Agent测试过程中，因未能及时关闭数十个Agent，某公司一夜间损失了约200万元人民币的Token费用。多Agent协同的生产流程，频繁的多轮交互和工具调用，已成为企业难以承受的成本负担。

正因如此，Flash模型的兴起显得尤为关键。它不再仅仅是旗舰模型的低成本替代，更能深度融入Agent工作流，实现每一步的提速、稳定与节约。近期，阶跃星辰发布了新一代高效Flash开源模型——Step 3.7 Flash。这款模型拥有1980亿参数，采用稀疏MoE（混合专家模型）架构，每个Token激活约110亿参数，支持高达256K的上下文长度，峰值吞吐量可达400 tokens/s，并提供low、medium、high三档推理强度供选择。

本文将聚焦于Step 3.7 Flash在真实复杂场景下的Agent链路效率，摒弃分数与排名，通过实际案例进行深度评测。

01. Coding Agent 的单次指令表现实测

本次评测将结合Claude Code与StepFun的Coding Plan进行。

案例一：多模态感知与UI执行能力

我们尝试让Step 3.7 Flash根据一张手绘草图，构建一个电商运营复盘看板。指令为：“参考草稿图做一个电商运营复盘看板。”

Step 3.7 Flash成功将视觉理解能力融入Agent工作流，精准识别了草图中的手写文字和空间布局，并将其转化为符合现代审美、具备自适应响应式的HTML/CSS/JS网页应用。生成的网页高度还原了草图的细节，包括页面板块、文字以及手绘的小箭头和图标。然而，在“渠道销售额”板块，Step 3.7 Flash遗漏了草图中应有的“全部”选项。

随后，我们指示其根据草图进行优化：“继续优化页面，渠道销售额板块，与原图有出入。按照原图排版在上方添加选项。”

Step 3.7 Flash展现了其多模态能力的进阶应用，不仅能理解图片，更能精准定位到需要修改的部分并进行修正，成功完成了页面的优化。

案例二：视觉搜索与工具增强推理

在比亚迪公布5月份产销快报之际，我们让Step 3.7 Flash进行识别和分析。指令为：“读取图片中的关键信息，并联网生成分析报告。”

此任务不仅考验OCR识别能力，更侧重于模型能否提取关键数据、联网验证背景信息，并最终输出一份具有洞察力的分析报告。Step 3.7 Flash提取的信息精准无误。生成的报告抓住了几个关键点：2026年5月，比亚迪新能源汽车销量为383,453辆，产量为380,549辆。1月至5月累计销量同比下降20.32%，但5月产量增长8.78%，销量增长0.26%，显示出明显的复苏迹象，是产销两端恢复性增长的重要拐点。此外，报告还指出5月出口占新能源汽车总销量的41.9%，出口已成为比亚迪重要的增长引擎。

案例三：视觉理解能力展现

我们上传了一张调音台照片，并询问：“麦克风怎么调。”

Step 3.7 Flash准确识别出这是一台NFM M系列专业调音台，并基于其对调音台的理解，指出了调节麦克风需要关注的通道、GAIN、FADER、MUTE、AUX以及主输出等关键区域。对于初学者而言，Step 3.7 Flash提供的排查流程，能够有效指导解决“麦克风无声”、“声音过小”或“出现啸叫”等常见问题。其逻辑清晰，特别是强调了先检查MUTE、再调整增益、然后推通道推子、最后检查主输出的顺序，展现了强大的视觉理解能力。

案例四：图片转化为互动地图

指令如下：“请将文件夹中的图片直接作为输入，不提供额外背景说明。请一次性完成整个工作流程。目标：创建一个完整的、可演示的单页HTML城市导览页面，文件名ucsd-tour.html。页面要求能够：1.识别提供的图片中的地标。2.通过网页搜索验证识别结果。3.将图片复制到当前工作目录并按合适名称保存。4.构建一个美观、交互式的地图式城市导览指南。重要输入规则：仅使用直接提供的图片作为输入。不扫描文件夹或目录寻找额外图片。不导入当前目录中无关的图片。将提供的图片视为完整的图片集。”

生成的网页在整体布局上较为成功，包含了首页、地图、地点介绍和导览路线图等模块，排版也较为得体。Step 3.7 Flash准确识别了7个地标，证明了其在视觉理解和网页搜索方面的能力。然而，在仔细检查后发现，地标名称与图片未能完全对应，模型在多文件管理、路径映射和资源命名方面仍有提升空间。此外，生成的地图仅初步勾勒了方位，缺乏实际地图的细节，且地标的方位与实际地理位置存在偏差。总而言之，Step 3.7 Flash完成了核心的识别任务，但在细节处理上尚待完善。

在实际交互过程中，Step 3.7 Flash最直观的优势在于其卓越的响应速度。尽管在处理多文件映射、精确空间逻辑等复杂任务时，偶尔会暴露出一些细节上的不足，但其快速的响应速度与多模态感知能力的结合，在多轮交互中展现出高效的纠错能力，从而以更低的延迟和成本，为复杂的Agent链路提供了更大的容错空间。

本次评测的实际Token消耗量，仅占Coding Plan套餐周额度的15%左右。得益于MoE架构的成本优势，即使Agent在长工作流中需要进行高频的多轮迭代、检索和纠错，其算力成本依然能够保持在企业可接受的范围内。

有了Step 3.7 Flash这样面向生产级Agent的高效Flash模型，Agent在应对真实任务时，能够以更快、更稳、更省的方式完成整个工作流，彻底摆脱过去那种高昂Token消耗的困境。

当前，大模型应用正朝着务实的路线发展。当企业不再为高昂的账单和延迟而焦虑时，AI才能真正从单纯的展示工具，转变为工业级生产线上稳定运转的生产力引擎。

阅读原文

# AI教程 # AI模型部署 # Step37Flash实测 # Step37Flash开源模型 # 低延迟AI # 模型推理加速

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Step 3.7 Flash开源模型实测