Language-Based Swarm Perception: Decentralized Person Re-Identification via Natural Language Descriptions - 专知论文

会员服务 ·

0

行人 · 行人重识别 · 识别 · 群体感知 · 自然语言描述 ·

Language-Based Swarm Perception: Decentralized Person Re-Identification via Natural Language Descriptions

翻译：基于语言的群体感知：通过自然语言描述实现去中心化行人重识别

Miquel Kegeleirs,Lorenzo Garattoni,Gianpiero Francesca,Mauro Birattari

We introduce a method for decentralized person re-identification in robot swarms that leverages natural language as the primary representational modality. Unlike traditional approaches that rely on opaque visual embeddings -- high-dimensional feature vectors extracted from images -- the proposed method uses human-readable language to represent observations. Each robot locally detects and describes individuals using a vision-language model (VLM), producing textual descriptions of appearance instead of feature vectors. These descriptions are compared and clustered across the swarm without centralized coordination, allowing robots to collaboratively group observations of the same individual. Each cluster is distilled into a representative description by a language model, providing an interpretable, concise summary of the swarm's collective perception. This approach enables natural-language querying, enhances transparency, and supports explainable swarm behavior. Preliminary experiments demonstrate competitive performance in identity consistency and interpretability compared to embedding-based methods, despite current limitations in text similarity and computational load. Ongoing work explores refined similarity metrics, semantic navigation, and the extension of language-based perception to environmental elements. This work prioritizes decentralized perception and communication, while active navigation remains an open direction for future study.

翻译：我们提出了一种用于机器人群体中行人重识别的去中心化方法，该方法以自然语言作为主要表征模态。与依赖不透明视觉嵌入（从图像中提取的高维特征向量）的传统方法不同，所提方法使用人类可读的语言来表示观测结果。每个机器人通过视觉语言模型在本地检测并描述个体，生成外观的文本描述而非特征向量。这些描述在群体中进行无需中心化协调的比较与聚类，使得机器人能够协作地将对同一个体的观测分组。每个聚类通过语言模型被提炼成一个代表性描述，从而提供对群体集体感知的可解释、简洁的摘要。该方法支持自然语言查询，增强了透明度，并有助于实现可解释的群体行为。初步实验表明，尽管目前在文本相似度和计算负载方面存在局限，但该方法在身份一致性和可解释性方面相比基于嵌入的方法具有竞争力。当前工作正在探索改进的相似度度量、语义导航，以及将基于语言的感知扩展到环境元素。本研究优先关注去中心化的感知与通信，而主动导航仍是未来研究的一个开放方向。

0

相关内容

【CVPR2025】面向自监督场景文本识别的语言学感知掩码图像建模

【CVPR2025】面向自监督场景文本识别的语言学感知掩码图像建模

专知会员服务

9+阅读 · 2025年3月25日

「面向复杂场景的行人重识别综述」最新2022研究进展综述

「面向复杂场景的行人重识别综述」最新2022研究进展综述

专知会员服务

38+阅读 · 2022年11月3日

【经典课程】《基于深度学习和行人重识别》，附课件与视频

【经典课程】《基于深度学习和行人重识别》，附课件与视频

专知会员服务

24+阅读 · 2022年9月24日

【MM 2021】基于统一中间模态学习的视红外人再识别,Towards a Unified Middle Modality Learning for Visible-Infrared Person Re-Identification

【MM 2021】基于统一中间模态学习的视红外人再识别,Towards a Unified Middle Modality Learning for Visible-Infrared Person Re-Identification

专知会员服务

12+阅读 · 2022年3月22日

可解释的自然语言处理方法简介

专知会员服务

81+阅读 · 2021年5月30日

自然语言生成综述

专知会员服务

65+阅读 · 2021年5月29日

多源数据行人重识别研究综述

多源数据行人重识别研究综述

专知会员服务

42+阅读 · 2020年11月2日

最新《自然场景中文本检测与识别》综述论文，26页pdf

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

【CVPR2020-杭州电子科技大学】软化相似性学习的无监督行人重识别，Unsupervised Person Re-identification via Softened Similarity Learning

【CVPR2020-杭州电子科技大学】软化相似性学习的无监督行人重识别，Unsupervised Person Re-identification via Softened Similarity Learning

专知会员服务

23+阅读 · 2020年4月8日

基于深度学习的行人重识别研究进展，自动化学报

基于深度学习的行人重识别研究进展，自动化学报

专知会员服务

40+阅读 · 2019年12月5日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

专知

17+阅读 · 2019年10月29日

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

微软研究院AI头条

10+阅读 · 2019年7月5日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

独家 | 基于深度学习的行人重识别研究综述

独家 | 基于深度学习的行人重识别研究综述

AI科技评论

11+阅读 · 2017年12月20日

干货｜基于双流递归神经网络的人体骨架行为识别！

干货｜基于双流递归神经网络的人体骨架行为识别！

全球人工智能

13+阅读 · 2017年12月15日

从人脸识别到行人重识别，下一个风口

从人脸识别到行人重识别，下一个风口

计算机视觉战队

13+阅读 · 2017年11月24日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

15+阅读 · 2017年9月23日

干货|郑哲东 Deep-ReID:行人重识别的深度学习方法（视频+PPT）

干货|郑哲东 Deep-ReID:行人重识别的深度学习方法（视频+PPT）

极市平台

14+阅读 · 2017年8月2日

线上分享 | 郑哲东 Deep-ReID: 关于行人重识别的深度学习方法

线上分享 | 郑哲东 Deep-ReID: 关于行人重识别的深度学习方法

极市平台

14+阅读 · 2017年7月24日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

行人重识别目标中心编码外观模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

DiCo: Disentangled Concept Representation for Text-to-image Person Re-identification

Arxiv

0+阅读 · 2月11日

Lan-grasp: Using Large Language Models for Semantic Object Grasping and Placement

Arxiv

0+阅读 · 2月6日

ReText: Text Boosts Generalization in Image-Based Person Re-identification

Arxiv

0+阅读 · 2月5日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Arxiv

0+阅读 · 2月4日

Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition

Arxiv

0+阅读 · 2月3日

DRFormer: A Dual-Regularized Bidirectional Transformer for Person Re-identification

Arxiv

0+阅读 · 2月1日

Person Re-ID in 2025: Supervised, Self-Supervised, and Language-Aligned. What Works?

Arxiv

0+阅读 · 1月28日

CONQUER: Context-Aware Representation with Query Enhancement for Text-Based Person Search

Arxiv

0+阅读 · 1月26日

Image-Text Knowledge Modeling for Unsupervised Multi-Scenario Person Re-Identification

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

行人重识别

自然语言描述

最新内容

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

3+阅读 · 今天8:04

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

3+阅读 · 今天7:59

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

3+阅读 · 今天7:56

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

3+阅读 · 今天7:50

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

3+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

4+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

12+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

7+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

6+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

4+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

10+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

6+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

9+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

11+阅读 · 7月26日

相关VIP内容

【CVPR2025】面向自监督场景文本识别的语言学感知掩码图像建模

【CVPR2025】面向自监督场景文本识别的语言学感知掩码图像建模

专知会员服务

9+阅读 · 2025年3月25日

「面向复杂场景的行人重识别综述」最新2022研究进展综述

「面向复杂场景的行人重识别综述」最新2022研究进展综述

专知会员服务

38+阅读 · 2022年11月3日

【经典课程】《基于深度学习和行人重识别》，附课件与视频

【经典课程】《基于深度学习和行人重识别》，附课件与视频

专知会员服务

24+阅读 · 2022年9月24日

【MM 2021】基于统一中间模态学习的视红外人再识别,Towards a Unified Middle Modality Learning for Visible-Infrared Person Re-Identification

【MM 2021】基于统一中间模态学习的视红外人再识别,Towards a Unified Middle Modality Learning for Visible-Infrared Person Re-Identification

专知会员服务

12+阅读 · 2022年3月22日

可解释的自然语言处理方法简介

专知会员服务

81+阅读 · 2021年5月30日

自然语言生成综述

专知会员服务

65+阅读 · 2021年5月29日

多源数据行人重识别研究综述

多源数据行人重识别研究综述

专知会员服务

42+阅读 · 2020年11月2日

最新《自然场景中文本检测与识别》综述论文，26页pdf

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

【CVPR2020-杭州电子科技大学】软化相似性学习的无监督行人重识别，Unsupervised Person Re-identification via Softened Similarity Learning

【CVPR2020-杭州电子科技大学】软化相似性学习的无监督行人重识别，Unsupervised Person Re-identification via Softened Similarity Learning

专知会员服务

23+阅读 · 2020年4月8日

基于深度学习的行人重识别研究进展，自动化学报

基于深度学习的行人重识别研究进展，自动化学报

专知会员服务

40+阅读 · 2019年12月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《异构人类团队的协作决策过程混合建模研究》

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

面向国防作战的最佳自主与蜂群无人机技术

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

相关资讯

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

专知

17+阅读 · 2019年10月29日

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

微软研究院AI头条

10+阅读 · 2019年7月5日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

独家 | 基于深度学习的行人重识别研究综述

独家 | 基于深度学习的行人重识别研究综述

AI科技评论

11+阅读 · 2017年12月20日

干货｜基于双流递归神经网络的人体骨架行为识别！

干货｜基于双流递归神经网络的人体骨架行为识别！

全球人工智能

13+阅读 · 2017年12月15日

从人脸识别到行人重识别，下一个风口

从人脸识别到行人重识别，下一个风口

计算机视觉战队

13+阅读 · 2017年11月24日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

15+阅读 · 2017年9月23日

干货|郑哲东 Deep-ReID:行人重识别的深度学习方法（视频+PPT）

干货|郑哲东 Deep-ReID:行人重识别的深度学习方法（视频+PPT）

极市平台

14+阅读 · 2017年8月2日

线上分享 | 郑哲东 Deep-ReID: 关于行人重识别的深度学习方法

线上分享 | 郑哲东 Deep-ReID: 关于行人重识别的深度学习方法

极市平台

14+阅读 · 2017年7月24日

相关论文

DiCo: Disentangled Concept Representation for Text-to-image Person Re-identification

Arxiv

0+阅读 · 2月11日

Lan-grasp: Using Large Language Models for Semantic Object Grasping and Placement

Arxiv

0+阅读 · 2月6日

ReText: Text Boosts Generalization in Image-Based Person Re-identification

Arxiv

0+阅读 · 2月5日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Arxiv

0+阅读 · 2月4日

Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition

Arxiv

0+阅读 · 2月3日

DRFormer: A Dual-Regularized Bidirectional Transformer for Person Re-identification

Arxiv

0+阅读 · 2月1日

Person Re-ID in 2025: Supervised, Self-Supervised, and Language-Aligned. What Works?

Arxiv

0+阅读 · 1月28日

CONQUER: Context-Aware Representation with Query Enhancement for Text-Based Person Search

Arxiv

0+阅读 · 1月26日

Image-Text Knowledge Modeling for Unsupervised Multi-Scenario Person Re-Identification

Arxiv

0+阅读 · 1月16日

相关基金

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

行人重识别目标中心编码外观模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员