VLMs May Not Globally Enhance Human Alignment over LLMs During Natural Reading - 专知论文

会员服务 ·

0

对齐 · 模态 · 多模 · 语言模型 · 多模态 ·

VLMs May Not Globally Enhance Human Alignment over LLMs During Natural Reading

翻译：VLMs可能不会在自然阅读中全局性地增强与LLMs相比的人类对齐度

Jinzhou Wu,Zhengwu Ma,Jixing Li,Baoping Tang,Zitong Lu

from arxiv, 17 pages, 10 figures

Large language models (LLMs) have become increasingly useful computational models of human language processing, but it remains unclear whether vision-language learning makes text representations more human-like during natural reading. Here, we address this question by comparing tightly matched LLM and vision-language model (VLM) pairs under a strictly text-only setting, allowing us to isolate the effect of multimodal training history from online visual input or cross-modal fusion. We evaluate model alignment with a human natural-reading dataset that includes whole-cortex fMRI responses and synchronized eye-tracking saccades. Our findings demonstrate that multimodal pretraining may not confer a uniform, global advantage in human alignment during natural reading, indicating that language-internal representations remain the key factor for modeling human text processing. However, the VLM advantage could emerge more selectively when sentences contain stronger visual semantic content, with converging evidence from both fMRI and eye-movement alignments. Together, our findings provide a controlled in silico framework for testing how visual learning history shapes model-human alignment of language processing, suggesting that multimodal pretraining contributes selectively rather than globally to human-like language representations during natural reading.

翻译：大语言模型已成为越来越有用的人类语言处理计算模型，但目前尚不清楚视觉-语言学习是否能使文本表征在自然阅读中更接近人类。本文通过严格文本设定下比较紧密匹配的大语言模型与视觉-语言模型对，从而将多模态训练历史效应与在线视觉输入或跨模态融合相分离。我们利用包含全脑fMRI响应和同步眼动追踪扫视的人类自然阅读数据集评估模型对齐度。结果表明，多模态预训练可能不会在自然阅读中赋予与人类对齐的全局性统一优势，表明语言内部表征仍是建模人类文本处理的关键因素。然而当句子包含更强的视觉语义内容时，VLM的优势可能更具选择性地显现，fMRI和眼动对齐的证据在此汇聚。综合而言，我们的研究为测试视觉学习历史如何塑造模型与人类在语言处理上的对齐提供了受控的计算机模拟框架，表明多模态预训练在自然阅读中对类人语言表征的贡献具有选择性而非全局性。

0

相关内容

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

专知会员服务

18+阅读 · 2025年7月19日

【斯坦福博士论文】通过以人为本的自然语言界面拓展 AI 的可及性

【斯坦福博士论文】通过以人为本的自然语言界面拓展 AI 的可及性

专知会员服务

22+阅读 · 2025年6月17日

LLM 时代小模型的应用潜力与挑战 ,50页pdf

LLM 时代小模型的应用潜力与挑战 ,50页pdf

专知会员服务

37+阅读 · 2025年2月25日

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

专知会员服务

32+阅读 · 2024年9月26日

「大模型」之所短，「知识图谱」之所长

「大模型」之所短，「知识图谱」之所长

专知会员服务

60+阅读 · 2024年5月8日

【博士论文】语言模型与人类偏好对齐，148页pdf

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

【牛津大学博士论文】自然语言处理的鲁棒性研究，194页pdf

【牛津大学博士论文】自然语言处理的鲁棒性研究，194页pdf

专知会员服务

26+阅读 · 2024年2月26日

基于深度学习的自然语言处理鲁棒性研究

基于深度学习的自然语言处理鲁棒性研究

专知会员服务

30+阅读 · 2024年1月15日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

专知会员服务

80+阅读 · 2020年3月5日

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

PaperWeekly

17+阅读 · 2022年3月8日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

中文对比英文自然语言处理NLP的区别综述

中文对比英文自然语言处理NLP的区别综述

AINLP

18+阅读 · 2019年3月20日

和日本萌妹一起读深度学习最新论文，阅读难度会降低吗？

和日本萌妹一起读深度学习最新论文，阅读难度会降低吗？

大数据技术

23+阅读 · 2018年12月19日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

14+阅读 · 2017年9月23日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

MLLMs Get It Right, Then Get It Wrong: Tracing and Correcting Late-Layer Textual Bias

Arxiv

0+阅读 · 6月16日

See First, Answer Later: Visual Evidence Pre-Alignment via Sufficiency-Driven RL

Arxiv

0+阅读 · 6月16日

Attention Alignment Between Humans and Vision-Language Models

Arxiv

0+阅读 · 6月16日

A comparison of human and LLM-simulated participants in a writing style task

Arxiv

0+阅读 · 6月15日

Attention, not scale, drives human-AI alignment in multimodal language prediction

Arxiv

0+阅读 · 6月13日

Aligned but Stereotypical? How System Prompts Shape Demographic Bias in LLM-Based Text-to-Image Models

Arxiv

0+阅读 · 6月12日

LLMs Can Better Capture Human Judgments--With the Right Prompts

Arxiv

0+阅读 · 6月10日

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Arxiv

0+阅读 · 6月10日

Can LLMs Use Linguistic Uncertainty Markers to Reliably Reflect Intrinsic Confidence?

Arxiv

0+阅读 · 5月27日

LLMSYS-HPOBench: Hyperparameter Optimization Benchmark Suite for Real-World LLM Systems

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

0+阅读 · 3分钟前

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

0+阅读 · 7分钟前

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

1+阅读 · 10分钟前

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

相关VIP内容

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

专知会员服务

18+阅读 · 2025年7月19日

【斯坦福博士论文】通过以人为本的自然语言界面拓展 AI 的可及性

【斯坦福博士论文】通过以人为本的自然语言界面拓展 AI 的可及性

专知会员服务

22+阅读 · 2025年6月17日

LLM 时代小模型的应用潜力与挑战 ,50页pdf

LLM 时代小模型的应用潜力与挑战 ,50页pdf

专知会员服务

37+阅读 · 2025年2月25日

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

专知会员服务

32+阅读 · 2024年9月26日

「大模型」之所短，「知识图谱」之所长

「大模型」之所短，「知识图谱」之所长

专知会员服务

60+阅读 · 2024年5月8日

【博士论文】语言模型与人类偏好对齐，148页pdf

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

【牛津大学博士论文】自然语言处理的鲁棒性研究，194页pdf

【牛津大学博士论文】自然语言处理的鲁棒性研究，194页pdf

专知会员服务

26+阅读 · 2024年2月26日

基于深度学习的自然语言处理鲁棒性研究

基于深度学习的自然语言处理鲁棒性研究

专知会员服务

30+阅读 · 2024年1月15日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

专知会员服务

80+阅读 · 2020年3月5日

热门VIP内容

开通专知VIP会员享更多权益服务

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

相关资讯

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

PaperWeekly

17+阅读 · 2022年3月8日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

中文对比英文自然语言处理NLP的区别综述

中文对比英文自然语言处理NLP的区别综述

AINLP

18+阅读 · 2019年3月20日

和日本萌妹一起读深度学习最新论文，阅读难度会降低吗？

和日本萌妹一起读深度学习最新论文，阅读难度会降低吗？

大数据技术

23+阅读 · 2018年12月19日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

14+阅读 · 2017年9月23日

相关论文

MLLMs Get It Right, Then Get It Wrong: Tracing and Correcting Late-Layer Textual Bias

Arxiv

0+阅读 · 6月16日

See First, Answer Later: Visual Evidence Pre-Alignment via Sufficiency-Driven RL

Arxiv

0+阅读 · 6月16日

Attention Alignment Between Humans and Vision-Language Models

Arxiv

0+阅读 · 6月16日

A comparison of human and LLM-simulated participants in a writing style task

Arxiv

0+阅读 · 6月15日

Attention, not scale, drives human-AI alignment in multimodal language prediction

Arxiv

0+阅读 · 6月13日

Aligned but Stereotypical? How System Prompts Shape Demographic Bias in LLM-Based Text-to-Image Models

Arxiv

0+阅读 · 6月12日

LLMs Can Better Capture Human Judgments--With the Right Prompts

Arxiv

0+阅读 · 6月10日

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Arxiv

0+阅读 · 6月10日

Can LLMs Use Linguistic Uncertainty Markers to Reliably Reflect Intrinsic Confidence?

Arxiv

0+阅读 · 5月27日

LLMSYS-HPOBench: Hyperparameter Optimization Benchmark Suite for Real-World LLM Systems

Arxiv

0+阅读 · 5月8日

相关基金

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员