对于在有人参与的环境中运行的自主机器人系统而言,可靠的轨迹预测是一项基础性要求。这里的“可靠”意味着预测结果必须是无碰撞的、符合社交规范的,并且在常规及安全关键(Safety-critical)场景下均具备鲁棒性。尽管建模技术取得了长足进步,但现有的预测系统在面对分布偏移(Distribution shift)时经常失效,表现出社交上不可信的行为,或报告具有误导性的性能指标。领域内很大程度上将这些问题视为建模问题,因此在日益复杂的架构上投入巨大,却对模型所依赖的基础设施投入不足。本论文提出了不同的观点:可靠的轨迹预测需要将数据策展、评估设计和建模视为同等地位的工程挑战,并将其组织为一个分层堆栈,每一层都取决于其底层逻辑的健全性。优秀的方法唯有通过优秀的基准测试才能体现价值,而优秀的基准测试其意义完全取决于底层数据的质量。
[Image illustrating the "Layered Stack" philosophy: Data Curation as the base, Evaluation Design in the middle, and Modeling at the top.]
预测系统的可靠性取决于其学习数据的可靠性,然而当前的数据集系统性地缺乏对部署至关重要的稀有、安全关键型长尾行为的覆盖。我们提出了 JaywalkerVR(一个虚拟现实“人在回路”系统)以及利用该系统收集的安全关键型人车交互数据集 CARLA-VR。研究表明,数据覆盖的不完整会显著损害预测的可靠性;而通过 VR 收集的交互数据增强训练集,可在交互场景中降低 10.7% 的位移误差和 4.9% 的碰撞率,从而夯实了有意义的评估与建模赖以生存的底层基础。
即便拥有更好的数据,如果评估手段拙劣,所谓的进步也只是幻觉。广泛使用的预测指标掩盖了诸如碰撞和社交不可信交互等关键失效模式,给人一种已具备部署条件的错觉。基于数据层基础,我们引入了**联合评估指标(JADE, JFDE)**和碰撞率,揭示了边缘性能与联合性能之间存在 2 倍的差距。在不改变架构的情况下,仅针对联合指标进行优化即可使碰撞率降低 16%,这证实了评估设计直接塑造了社区构建模型的方式。缺乏这些指标,模型设计的改进将无法被信任为真实的研究进展。
唯有在数据和评估体系健全之后,探讨如何改进模型才具有实际意义。基于上述基础,我们提出了 PECT(姿态与环境上下文 Transformer)。这是一种三流架构,融合了人体姿态、稠密鸟瞰图(BEV)环境语义以及轨迹历史。我们引入了环境碰撞率(ECR)指标和一种门控课程融合策略(Gated curriculum fusion strategy),使轨迹、姿态和稠密环境特征保持一致,从而确保多模态输入能提升避障能力而非引入噪声。PECT 在不牺牲位移准确度的前提下,将主体间碰撞率降低了 6-12%,环境碰撞率降低了 8-10%。这些丰富输入信息的价值之所以能够被量化,正是因为底层的数据覆盖和评估标准已具备揭示核心差异的能力。
综上所述,本论文认为轨迹预测社区不应将“部署就绪性”视为单纯的建模问题,而应视其为系统性问题。数据、评估与方法深度相互依赖——忽视任何一方都会损害其他环节。通过将三者作为一个统一的堆栈处理,本研究贡献了一套框架、具体的工具以及一种构建真正符合现实世界自主决策要求的预测系统的哲学。