大型视觉语言模型与人类在指称沟通中的基础差异 (LVLMs and Humans Ground Differently in Referential Communication) - 专知论文

会员服务 ·

0

指称 · 大型视觉语言模型 · 协作 · 包含 · 语言模型 ·

LVLMs and Humans Ground Differently in Referential Communication

翻译：大型视觉语言模型与人类在指称沟通中的基础差异

Peter Zeng,Weiling Li,Amie Paige,Zhengxiang Wang,Panagiotis Kaliosis,Dimitris Samaras,Gregory Zelinsky,Susan Brennan,Owen Rambow

from arxiv, 24 pages, 16 figures, preprint

For generative AI agents to partner effectively with human users, the ability to accurately predict human intent is critical. But this ability to collaborate remains limited by a critical deficit: an inability to model common ground. Here, we present a referential communication experiment with a factorial design involving director-matcher pairs (human-human, human-AI, AI-human, and AI-AI) that interact with multiple turns in repeated rounds to match pictures of objects not associated with any obvious lexicalized labels. We release the online pipeline for data collection, the tools and analyses for accuracy, efficiency, and lexical overlap, and a corpus of 356 dialogues (89 pairs over 4 rounds each) that unmasks LVLMs' limitations in interactively resolving referring expressions, a crucial skill that underlies human language use.

翻译：为使生成式人工智能代理能与人类用户有效协作，准确预测人类意图的能力至关重要。然而这种协作能力仍受限于一个关键缺陷：无法对共同基础进行建模。本文提出一项采用因子设计的指称沟通实验，涉及指导者-匹配者配对（人类-人类、人类-人工智能、人工智能-人类、人工智能-人工智能），这些配对通过多轮次的多回合互动来匹配与任何显性词汇标签无关的物体图像。我们发布了包含数据收集的在线流程、用于准确度、效率和词汇重叠分析的工具，以及包含356组对话（89对参与者各进行4轮）的语料库。该研究揭示了大型视觉语言模型在交互式解析指称表达式方面的局限性，而这项关键能力正是人类语言使用的基础。

0

相关内容

指称是指某些代词名词在文章中的具体称述对象。用来指称事物的词语叫“指称语”；所指称的事物叫指称对象。充当指称语的一般是代词和名词及其词组。

人机协同作战规划：来自美海军陆战队的大语言模型（LLM）使用教训

人机协同作战规划：来自美海军陆战队的大语言模型（LLM）使用教训

专知会员服务

24+阅读 · 2025年10月16日

大语言模型在规划与调度问题上的应用

大语言模型在规划与调度问题上的应用

专知会员服务

51+阅读 · 2025年1月12日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

33+阅读 · 2024年10月16日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

大模型如何用于遥感？NYUAD等最新《遥感中的视觉-语言模型:当前进展与未来趋势》，全面阐述遥感中八项基本视觉语言模型任务应用

大模型如何用于遥感？NYUAD等最新《遥感中的视觉-语言模型:当前进展与未来趋势》，全面阐述遥感中八项基本视觉语言模型任务应用

专知会员服务

77+阅读 · 2023年5月16日

重磅！大模型模拟人生？斯坦福发布《生成式智能体:人类行为的交互式拟像》

重磅！大模型模拟人生？斯坦福发布《生成式智能体:人类行为的交互式拟像》

专知会员服务

61+阅读 · 2023年4月11日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

105+阅读 · 2022年4月28日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【论文笔记】基于强化学习的人机对话

【论文笔记】基于强化学习的人机对话

专知

20+阅读 · 2019年9月21日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Where Norms and References Collide: Evaluating LLMs on Normative Reasoning

Arxiv

0+阅读 · 2月3日

Are Large Language Models Sensitive to the Motives Behind Communication?

Arxiv

0+阅读 · 2月1日

HumanLLM: Benchmarking and Improving LLM Anthropomorphism via Human Cognitive Patterns

Arxiv

0+阅读 · 1月30日

Investigating Associational Biases in Inter-Model Communication of Large Generative Models

Arxiv

0+阅读 · 1月29日

Mind the Gap: The Divergence Between Human and LLM-Generated Tasks

Arxiv

0+阅读 · 1月28日

Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs

Arxiv

0+阅读 · 1月27日

A large-scale evaluation of commonsense knowledge in humans and large language models

Arxiv

0+阅读 · 1月21日

HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns

Arxiv

0+阅读 · 1月15日

Cognitive Biases in LLM-Assisted Software Development

Arxiv

0+阅读 · 1月12日

Analysing Differences in Persuasive Language in LLM-Generated Text: Uncovering Stereotypical Gender Patterns

Arxiv

0+阅读 · 1月9日

VIP会员

文章信息

相关主题

大型视觉语言模型

相关VIP内容

人机协同作战规划：来自美海军陆战队的大语言模型（LLM）使用教训

人机协同作战规划：来自美海军陆战队的大语言模型（LLM）使用教训

专知会员服务

24+阅读 · 2025年10月16日

大语言模型在规划与调度问题上的应用

大语言模型在规划与调度问题上的应用

专知会员服务

51+阅读 · 2025年1月12日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

33+阅读 · 2024年10月16日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

大模型如何用于遥感？NYUAD等最新《遥感中的视觉-语言模型:当前进展与未来趋势》，全面阐述遥感中八项基本视觉语言模型任务应用

大模型如何用于遥感？NYUAD等最新《遥感中的视觉-语言模型:当前进展与未来趋势》，全面阐述遥感中八项基本视觉语言模型任务应用

专知会员服务

77+阅读 · 2023年5月16日

重磅！大模型模拟人生？斯坦福发布《生成式智能体:人类行为的交互式拟像》

重磅！大模型模拟人生？斯坦福发布《生成式智能体:人类行为的交互式拟像》

专知会员服务

61+阅读 · 2023年4月11日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

105+阅读 · 2022年4月28日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【论文笔记】基于强化学习的人机对话

【论文笔记】基于强化学习的人机对话

专知

20+阅读 · 2019年9月21日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

相关论文

Where Norms and References Collide: Evaluating LLMs on Normative Reasoning

Arxiv

0+阅读 · 2月3日

Are Large Language Models Sensitive to the Motives Behind Communication?

Arxiv

0+阅读 · 2月1日

HumanLLM: Benchmarking and Improving LLM Anthropomorphism via Human Cognitive Patterns

Arxiv

0+阅读 · 1月30日

Investigating Associational Biases in Inter-Model Communication of Large Generative Models

Arxiv

0+阅读 · 1月29日

Mind the Gap: The Divergence Between Human and LLM-Generated Tasks

Arxiv

0+阅读 · 1月28日

Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs

Arxiv

0+阅读 · 1月27日

A large-scale evaluation of commonsense knowledge in humans and large language models

Arxiv

0+阅读 · 1月21日

HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns

Arxiv

0+阅读 · 1月15日

Cognitive Biases in LLM-Assisted Software Development

Arxiv

0+阅读 · 1月12日

Analysing Differences in Persuasive Language in LLM-Generated Text: Uncovering Stereotypical Gender Patterns

Arxiv

0+阅读 · 1月9日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员