Learning generalizable trajectory representations from raw GPS traces remains difficult because the data is continuous, noisy, and irregularly sampled. Spatial tokenization is also challenging: fine grids yield sparse cells with weak embeddings, while coarse grids merge heterogeneous movement patterns into the same token. We present TrajTok, a trajectory encoder with a simple pretraining recipe for transferable trajectory embeddings. TrajTok first learns a multi-resolution hexagonal cell partition from the spatial distribution of GPS points, converting noisy GPS sequences into discrete cell tokens. To capture both geometry and kinematics, it uses a factorized transformer encoder with early per-modality self-attention blocks, cross-attention fusion layers, and spatiotemporal rotary position embeddings, ST-RoPE, to encode where and when each token occurs. TrajTok is pretrained with masked-token modeling that recovers both geometric structure and kinematic patterns from partial trajectory observations. On the Porto dataset, a frozen TrajTok encoder with lightweight task adapters achieves strong performance across trajectory similarity search, classification, estimated time of arrival, and full travel-time regression, outperforming multiple task-specific methods. The same frozen encoder supports both geometry-dominated and kinematics-dominated tasks, suggesting that TrajTok learns transferable trajectory structure rather than task-specific shortcuts. These results indicate that learned multi-resolution spatial tokenization combined with masked-token pretraining is a promising direction for general-purpose trajectory foundation models.


翻译:从原始GPS轨迹数据中学习可泛化的轨迹表示仍然困难,因为这类数据具有连续性、噪声和采样不规则性。空间标记化同样面临挑战:细粒度网格会产生稀疏单元和弱嵌入,而粗粒度网格则会将异质性运动模式合并到同一标记中。本文提出TrajTok——一种带有简单预训练策略的轨迹编码器,用于生成可迁移的轨迹嵌入。TrajTok首先根据GPS点的空间分布学习一个多分辨率六边形网格划分,将含噪的GPS序列转化为离散的网格标记。为同时捕捉几何与运动学特征,它采用分解式Transformer编码器,包含早期按模态划分的自注意力模块、交叉注意力融合层,以及时空旋转位置编码(ST-RoPE),以编码每个标记出现的位置和时间。TrajTok通过掩码标记建模进行预训练,从部分轨迹观测中同时恢复几何结构和运动学模式。在Porto数据集上,冻结的TrajTok编码器配合轻量任务适配器,在轨迹相似性搜索、分类、预计到达时间和全程旅行时间回归等任务中均取得优异性能,超越多个任务专用方法。同一冻结编码器既能支持以几何为主导的任务,也能支持以运动学为主导的任务,表明TrajTok学习的是可迁移的轨迹结构而非任务特定的捷径。这些结果表明,将学习的多分辨率空间标记化与掩码标记预训练相结合,是构建通用轨迹基础模型的可行方向。

0
下载
关闭预览

相关内容

车辆目标轨迹预测方法研究综述及展望
专知会员服务
13+阅读 · 2025年7月30日
专知会员服务
47+阅读 · 2020年11月13日
【学界】虚拟对抗训练:一种新颖的半监督学习正则化方法
GAN生成式对抗网络
10+阅读 · 2019年6月9日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
车辆目标轨迹预测方法研究综述及展望
专知会员服务
13+阅读 · 2025年7月30日
专知会员服务
47+阅读 · 2020年11月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员