The SemEval 2024 BRAINTEASER task challenges language models to perform lateral thinking -- a form of creative, non-linear reasoning that remains underexplored in NLP. The task comprises two subtasks, Sentence Puzzle and Word Puzzle, requiring models to defy conventional commonsense associations. We present a system that fine-tunes DeBERTaV3 using HuggingFace's AutoModelForMultipleChoice architecture. We augment the provided training data with two additional sources: (1) a humor-style question-answering dataset generated via GPT-4 prompting, and (2) the RiddleSense dataset. This data augmentation strategy is motivated by the observation that humor and riddles share the lateral reasoning structure required by the task. Our best system achieves 92.5\% overall accuracy on the Sentence Puzzle subtask and 80.2\% on the Word Puzzle subtask, ranking 6th out of 31 teams and 10th out of 23 teams, respectively. We further show that the choice of task formulation matters: framing the problem as multiple-choice rather than sequence classification yields a 10-point accuracy improvement with the same base model. Our analysis reveals that data augmentation with humor and riddle data is particularly effective for sentence-level lateral reasoning, while word-level puzzles remain a harder challenge.


翻译:SemEval 2024的BRAINTEASER任务挑战语言模型执行横向思维——一种在自然语言处理领域尚未充分探索的创造性非线性推理形式。该任务包含句子谜题和词语谜题两个子任务,要求模型突破常规的常识性关联。我们提出了一种基于HuggingFace的AutoModelForMultipleChoice架构对DeBERTaV3进行微调的系统。我们在提供的训练数据基础上增加了两个额外数据源:(1)通过GPT-4提示生成的幽默风格问答数据集;(2)RiddleSense数据集。这种数据增强策略的动机在于,幽默和谜语具有与该任务所需的横向推理结构相似的特征。我们的最佳系统在句子谜题子任务上达到92.5%的整体准确率,在词语谜题子任务上达到80.2%,分别在31支参赛队伍中排名第6位,在23支队伍中排名第10位。我们进一步证明任务表述形式的选择至关重要:将问题构建为多项选择题而非序列分类任务,在使用相同基础模型的情况下可带来10个百分点的准确率提升。分析表明,幽默与谜语数据增强对句子层级的横向推理特别有效,而词语层级的谜题仍是更具挑战性的难题。

0
下载
关闭预览

相关内容

数据增强在机器学习领域多指采用一些方法(比如数据蒸馏,正负样本均衡等)来提高模型数据集的质量,增强数据。
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
NeurIPS 2024 让大语言模型使用代码解决图分析推理任务
专知会员服务
24+阅读 · 2024年11月1日
【CMU博士论文】使用结构化推理增强语言模型,320页pdf
专知会员服务
34+阅读 · 2024年6月29日
面向表格数据的大模型推理综述
专知会员服务
67+阅读 · 2023年12月26日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
《第四代军事特种作战部队选拔与评估》
专知会员服务
1+阅读 · 今天6:23
不对称优势上升:自主系统如何强化海上拒止
专知会员服务
1+阅读 · 今天5:51
《人工智能赋能电磁战》(报告)
专知会员服务
2+阅读 · 4月17日
【CMU博士论文】迈向可扩展的开放世界三维感知
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员