We introduce a method for decentralized person re-identification in robot swarms that leverages natural language as the primary representational modality. Unlike traditional approaches that rely on opaque visual embeddings -- high-dimensional feature vectors extracted from images -- the proposed method uses human-readable language to represent observations. Each robot locally detects and describes individuals using a vision-language model (VLM), producing textual descriptions of appearance instead of feature vectors. These descriptions are compared and clustered across the swarm without centralized coordination, allowing robots to collaboratively group observations of the same individual. Each cluster is distilled into a representative description by a language model, providing an interpretable, concise summary of the swarm's collective perception. This approach enables natural-language querying, enhances transparency, and supports explainable swarm behavior. Preliminary experiments demonstrate competitive performance in identity consistency and interpretability compared to embedding-based methods, despite current limitations in text similarity and computational load. Ongoing work explores refined similarity metrics, semantic navigation, and the extension of language-based perception to environmental elements. This work prioritizes decentralized perception and communication, while active navigation remains an open direction for future study.


翻译:我们提出了一种用于机器人群体中行人重识别的去中心化方法,该方法以自然语言作为主要表征模态。与依赖不透明视觉嵌入(从图像中提取的高维特征向量)的传统方法不同,所提方法使用人类可读的语言来表示观测结果。每个机器人通过视觉语言模型在本地检测并描述个体,生成外观的文本描述而非特征向量。这些描述在群体中进行无需中心化协调的比较与聚类,使得机器人能够协作地将对同一个体的观测分组。每个聚类通过语言模型被提炼成一个代表性描述,从而提供对群体集体感知的可解释、简洁的摘要。该方法支持自然语言查询,增强了透明度,并有助于实现可解释的群体行为。初步实验表明,尽管目前在文本相似度和计算负载方面存在局限,但该方法在身份一致性和可解释性方面相比基于嵌入的方法具有竞争力。当前工作正在探索改进的相似度度量、语义导航,以及将基于语言的感知扩展到环境元素。本研究优先关注去中心化的感知与通信,而主动导航仍是未来研究的一个开放方向。

0
下载
关闭预览

相关内容

专知会员服务
81+阅读 · 2021年5月30日
专知会员服务
65+阅读 · 2021年5月29日
多源数据行人重识别研究综述
专知会员服务
41+阅读 · 2020年11月2日
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
70+阅读 · 2020年6月10日
基于深度学习的行人重识别研究进展,自动化学报
专知会员服务
39+阅读 · 2019年12月5日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
独家 | 基于深度学习的行人重识别研究综述
AI科技评论
11+阅读 · 2017年12月20日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
从人脸识别到行人重识别,下一个风口
计算机视觉战队
13+阅读 · 2017年11月24日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员