NavFoM – 银河通用推出的环视导航基座大模型
NavFoM,即导航基础模型(Navigation Foundation Model),是银河通用联合北京大学、阿德莱德大学、浙江大学等顶尖科研团队共同研发的全球首个能够跨越不同本体(机器人形态)并覆盖全域环境的环视导航大模型。它拥有强大的全场景适应能力,能够无缝切换于室内与室外环境,甚至在从未见过的场景下也能实现零样本(zero-shot)的精准导航,无需额外的地图构建或数据收集工作。
NavFoM 的核心亮点
- 场景通行:NavFoM打破了室内外的界限,全方位支持各类环境,并在陌生场景下展现出卓越的零样本导航能力,极大提升了环境适应性和部署效率。
- 多任务指令响应:该模型能够灵活响应多种导航指令,包括通过自然语言进行的目标跟随和自主导航,确保机器人能够精确执行多样化的任务。
- 跨平台通用适配:NavFoM具备极强的跨本体适配性,能够以较低的成本快速集成到机器狗、轮式及腿式人形机器人、无人机、汽车等各种形态各异的硬件平台,实现广泛的应用。
- 前沿技术驱动:其核心技术创新体现在TVI Tokens(时空视角索引标记)和BATS策略(预算感知标记采样)。TVI Tokens赋予模型对时间和视角的深度理解,而BATS策略则使其在有限的计算资源下依然能够做出明智决策,显著提升了模型性能。
- 颠覆性统一范式:NavFoM构建了一个全新的通用导航范式:“视频流 + 文本指令 → 动作轨迹”。这一端到端的处理方式,摒弃了传统的模块化拼接,实现了从“感知”到“理解”再到“行动”的完整流程的无缝衔接。
- 海量数据支撑:为了训练NavFoM,研究团队构建了规模庞大的跨任务数据集,其中包括约八百万条涵盖不同任务和本体的导航数据,以及四百万条开放式问答数据,为模型的强大泛化能力奠定了坚实基础。
NavFoM 的技术基石
- TVI Tokens(Temporal-Viewpoint-Indexed Tokens):通过为时间维度和视角维度分配独特的标记,NavFoM得以深入理解环境的动态变化和不同观察角度的信息,从而在复杂动态环境中实现更精准的导航。
- BATS策略(Budget-Aware Token Sampling):面对计算资源受限的挑战,BATS策略通过智能地选择和采样标记,确保模型在效率与性能之间取得最佳平衡,使其更适合在实际部署中运行。
- 端到端的通用框架:该模型采用“视频流 + 文本指令 → 动作轨迹”的统一处理流程,将视觉感知、语言理解和控制紧密结合,直接将输入信息转化为输出动作,极大地简化了导航系统的设计和实现。
- 海量跨任务数据集:汇聚了约八百万条导航数据和四百万条开放问答数据的庞大跨任务数据集,为NavFoM提供了丰富的多场景、多任务训练样本,显著增强了模型在不同环境和任务下的泛化能力。
NavFoM 的广阔应用前景
- 机器人自主导航:在商场、机场等复杂公共场所,NavFoM能够驱动机器人根据自然语言指令进行自主导航和目标跟随,提供高效的服务和引导。
- 智能自动驾驶:为汽车自动驾驶系统注入更强的能力,提升车辆在复杂交通环境下的自主决策和导航精度,从而增强自动驾驶的安全性和可靠性。
- 无人机智能飞控:赋能无人机在复杂地形和多变环境下实现自主飞行和任务执行,例如在物流配送、环境监测等领域发挥重要作用。
- 人形机器人交互:支持轮式和腿式等各类人形机器人,使其能够更好地适应多样化的环境,并完成更复杂的导航与人机交互任务。
- 定制化应用开发:NavFoM作为强大的基础模型,为开发者提供了极大的便利,可以通过后续的微调和训练,快速开发出满足特定导航需求的专业应用模型,进一步拓展其在各行各业的应用边界。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...

粤公网安备 44011502001135号