The thematic fit estimation task measures semantic arguments' compatibility with a specific semantic role for a specific predicate. We investigate if LLMs have consistent, expressible knowledge of event arguments' thematic fit by experimenting with various prompt designs, manipulating input context, reasoning, and output forms. We set a new state-of-the-art on thematic fit benchmarks, but show that closed and open weight LLMs respond differently to our prompting strategies: Closed models achieve better scores overall and benefit from multi-step reasoning, but they perform worse at filtering out generated sentences incompatible with the specified predicate, role, and argument.


翻译:主题适配性估计任务旨在衡量语义论元与特定谓词中特定语义角色的兼容程度。本文通过设计多种提示方案,操控输入语境、推理过程及输出形式,探究大语言模型是否对事件论元的主题适配性具有一致且可表达的知识。我们在主题适配性基准测试中取得了新的最优性能,但发现闭源与开源权重的大语言模型对我们的提示策略响应存在差异:闭源模型整体得分更高且能从多步推理中获益,但在过滤与指定谓词、角色及论元不兼容的生成句方面表现较差。

0
下载
关闭预览

相关内容

大语言模型基准综述
专知会员服务
27+阅读 · 2025年8月22日
融合知识图谱的大语言模型研究综述
专知会员服务
38+阅读 · 2025年4月18日
大语言模型在规划与调度问题上的应用
专知会员服务
51+阅读 · 2025年1月12日
大语言模型的知识冲突:成因、根源与展望
专知会员服务
21+阅读 · 2024年9月23日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题
开放知识图谱
26+阅读 · 2018年6月26日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
美陆军设想无人系统司令部
专知会员服务
2+阅读 · 4月15日
【博士论文】已对齐人工智能系统的持久脆弱性
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
0+阅读 · 4月15日
《采用系统思维应对混合战争》125页
专知会员服务
2+阅读 · 4月15日
战争机器学习:数据生态系统构建(155页)
专知会员服务
7+阅读 · 4月15日
内省扩散语言模型
专知会员服务
6+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
4+阅读 · 4月14日
相关VIP内容
大语言模型基准综述
专知会员服务
27+阅读 · 2025年8月22日
融合知识图谱的大语言模型研究综述
专知会员服务
38+阅读 · 2025年4月18日
大语言模型在规划与调度问题上的应用
专知会员服务
51+阅读 · 2025年1月12日
大语言模型的知识冲突:成因、根源与展望
专知会员服务
21+阅读 · 2024年9月23日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员