新闻通讯
加入我们的社区
订阅我们的新闻通讯获取最新消息和更新
Uni-NaVid 是一个基于视频的视觉-语言-动作模型,旨在统一多种具身导航任务,实现高效、非阻塞的实时部署。
Uni-NaVid 是首个基于视频的视觉-语言-动作(VLA)模型,专为统一多种具身导航任务而设计,包括视觉语言导航(VLN)、目标导航(ObjectNav)、具身问答(EQA)和人类跟随任务。该模型通过整合 360 万导航样本,实现任务间的协同学习,显著提升性能。采用在线令牌合并策略,推理速度可达约 5 Hz,支持非阻塞部署,并在真实环境中展现出强大的泛化能力。项目已在 Robotics: Science and Systems (RSS 2025) 上发表,提供开源代码和数据集。