Differences in Typological Alignment in Language Models' Treatment of Differential Argument Marking - 专知论文

会员服务 ·

0

系统 · DAM · 语言模型 · 合成 · 语料 ·

Differences in Typological Alignment in Language Models' Treatment of Differential Argument Marking

翻译：语言模型处理差异论元标记中的类型学对齐差异

Iskar Deng,Nathalia Xu,Shane Steinert-Threlkeld

from arxiv, 15 pages, 7 figures, 7 tables. Under review

Recent work has shown that language models (LMs) trained on synthetic corpora can exhibit typological preferences that resemble cross-linguistic regularities in human languages, particularly for syntactic phenomena such as word order. In this paper, we extend this paradigm to differential argument marking (DAM), a semantic licensing system in which morphological marking depends on semantic prominence. Using a controlled synthetic learning method, we train GPT-2 models on 18 corpora implementing distinct DAM systems and evaluate their generalization using minimal pairs. Our results reveal a dissociation between two typological dimensions of DAM. Models reliably exhibit human-like preferences for natural markedness direction, favoring systems in which overt marking targets semantically atypical arguments. In contrast, models do not reproduce the strong object preference in human languages, in which overt marking in DAM more often targets objects rather than subjects. These findings suggest that different typological tendencies may arise from distinct underlying sources.

翻译：近期研究表明，在合成语料库上训练的语言模型能够表现出类似于人类语言跨语言规律的类型学偏好，特别是在词序等句法现象方面。本文将该研究范式扩展至差异论元标记——一种形态标记依赖于语义显著性的语义允准系统。通过受控合成学习方法，我们在18个实现不同DAM系统的语料库上训练GPT-2模型，并使用最小对立对评估其泛化能力。研究结果揭示了DAM两个类型学维度之间的分离现象：模型始终表现出类人的自然标记方向偏好，倾向于显性标记针对语义非典型论元的系统；与之相反，模型未能复现人类语言中强烈的宾语偏好（即DAM中的显性标记更常针对宾语而非主语）。这些发现表明，不同的类型学倾向可能源于不同的底层机制。

0

相关内容

【NTU博士论文】让语言模型成为更类人的学习者

【NTU博士论文】让语言模型成为更类人的学习者

专知会员服务

23+阅读 · 2025年9月23日

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

专知会员服务

18+阅读 · 2025年7月19日

【NTU博士论文】让语言模型更接近人类学习者

【NTU博士论文】让语言模型更接近人类学习者

专知会员服务

18+阅读 · 2025年5月3日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

大语言模型对齐研究综述

大语言模型对齐研究综述

专知会员服务

56+阅读 · 2024年8月1日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

【博士论文】语言模型与人类偏好对齐，148页pdf

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

大型语言模型对齐

大型语言模型对齐

专知会员服务

120+阅读 · 2023年9月27日

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

专知会员服务

25+阅读 · 2022年8月3日

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

25+阅读 · 2022年5月4日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

开放知识图谱

15+阅读 · 2019年11月30日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

Humans and transformer LMs: Abstraction drives language learning

Humans and transformer LMs: Abstraction drives language learning

Arxiv

0+阅读 · 3月18日

Alignment Makes Language Models Normative, Not Descriptive

Alignment Makes Language Models Normative, Not Descriptive

Arxiv

0+阅读 · 3月17日

Evolution and compression in LLMs: On the emergence of human-aligned categorization

Arxiv

0+阅读 · 3月13日

Same Words, Different Judgments: Modality Effects on Preference Alignment

Arxiv

0+阅读 · 2月26日

Differentiating Between Human-Written and AI-Generated Texts Using Automatically Extracted Linguistic Features

Arxiv

0+阅读 · 2月17日

Targeted Syntactic Evaluation of Language Models on Georgian Case Alignment

Arxiv

0+阅读 · 2月13日

Targeted Syntactic Evaluation of Language Models on Georgian Case Alignment

Arxiv

0+阅读 · 2月11日

Modality Matching Matters: Calibrating Language Distances for Cross-Lingual Transfer in URIEL+

Arxiv

0+阅读 · 2月9日

The Roots of Performance Disparity in Multilingual Language Models: Intrinsic Modeling Difficulty or Design Choices?

Arxiv

0+阅读 · 2月7日

Evaluating the Presence of Sex Bias in Clinical Reasoning by Large Language Models

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

8+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

6+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

6+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

2+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

2+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

3+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

2+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

12+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

11+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

9+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

17+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

8+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

10+阅读 · 4月18日

相关VIP内容

【NTU博士论文】让语言模型成为更类人的学习者

【NTU博士论文】让语言模型成为更类人的学习者

专知会员服务

23+阅读 · 2025年9月23日

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

专知会员服务

18+阅读 · 2025年7月19日

【NTU博士论文】让语言模型更接近人类学习者

【NTU博士论文】让语言模型更接近人类学习者

专知会员服务

18+阅读 · 2025年5月3日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

大语言模型对齐研究综述

大语言模型对齐研究综述

专知会员服务

56+阅读 · 2024年8月1日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

【博士论文】语言模型与人类偏好对齐，148页pdf

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

大型语言模型对齐

大型语言模型对齐

专知会员服务

120+阅读 · 2023年9月27日

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

专知会员服务

25+阅读 · 2022年8月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《高超音速武器：一项再度兴起的技术》120页slides

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

美国当前高超音速导弹发展概述

无人机蜂群建模与仿真方法

相关资讯

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

25+阅读 · 2022年5月4日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

开放知识图谱

15+阅读 · 2019年11月30日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Humans and transformer LMs: Abstraction drives language learning

Humans and transformer LMs: Abstraction drives language learning

Arxiv

0+阅读 · 3月18日

Alignment Makes Language Models Normative, Not Descriptive

Alignment Makes Language Models Normative, Not Descriptive

Arxiv

0+阅读 · 3月17日

Evolution and compression in LLMs: On the emergence of human-aligned categorization

Arxiv

0+阅读 · 3月13日

Same Words, Different Judgments: Modality Effects on Preference Alignment

Arxiv

0+阅读 · 2月26日

Differentiating Between Human-Written and AI-Generated Texts Using Automatically Extracted Linguistic Features

Arxiv

0+阅读 · 2月17日

Targeted Syntactic Evaluation of Language Models on Georgian Case Alignment

Arxiv

0+阅读 · 2月13日

Targeted Syntactic Evaluation of Language Models on Georgian Case Alignment

Arxiv

0+阅读 · 2月11日

Modality Matching Matters: Calibrating Language Distances for Cross-Lingual Transfer in URIEL+

Arxiv

0+阅读 · 2月9日

The Roots of Performance Disparity in Multilingual Language Models: Intrinsic Modeling Difficulty or Design Choices?

Arxiv

0+阅读 · 2月7日

Evaluating the Presence of Sex Bias in Clinical Reasoning by Large Language Models

Arxiv

0+阅读 · 2月4日

相关基金

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员