Large language models (LLMs) are increasingly trained to abstain on difficult questions by answering unknown. However, we observe that LLMs often misuse this option: they output unknown even when LLMs can actually solve the questions, or they fail to understand why questions are truly unsolvable. We formalize this mismatch between potential ability and the inclination of abstention as the Vague Perception phenomenon. We introduce the WakenLLM pipeline that (1) extracts Vague Perception samples and (2) measures how many of them can be converted to correct answers under stimulation. Based on stage-wise metrics (TCR, OCR, etc.) and the upper-bound accuracy Acc(WakenLLM), we quantify LLMs' reasoning potential beyond one-shot accuracy. Experiments on six LLMs suggest that, without further training or parameter revisions, LLMs can achieve up to a 68.53% increase in accuracy on Vague Perception samples through our designed pipeline. We further analyze how Vague Perception, Conformity and Degradation vary from model families and parameter sizes, and offer model selection strategies in multi-stage reasoning workflows. Finally, by comparing WakenLLM against mainstream reasoning baselines, both training and non-training ones, we show that existing baselines only activate a small portion of LLMs' reasoning potential, pointing to perception-aware reasoning as a promising direction for future LLM designing. Code and datasets are available at https://github.com/WakenLLMTeam/WakenLLM-toolkit.


翻译:大语言模型(LLMs)越来越多地被训练为通过回答“未知”来回避困难问题。然而,我们观察到LLMs经常误用这一选项:即使LLMs实际上能够解决问题,它们也会输出“未知”;或者它们未能理解问题为何真正无法解决。我们将这种潜在能力与回避倾向之间的不匹配形式化为模糊感知现象。我们引入了WakenLLM流程,该流程(1)提取模糊感知样本,并(2)衡量在刺激下有多少此类样本能够转化为正确答案。基于阶段性的指标(TCR、OCR等)以及准确率上界Acc(WakenLLM),我们量化了超越单次准确率的LLMs推理潜能。在六个LLMs上的实验表明,无需进一步训练或参数修改,通过我们设计的流程,LLMs在模糊感知样本上的准确率最高可提升68.53%。我们进一步分析了模糊感知、从众性和性能退化如何随模型家族和参数规模变化,并为多阶段推理工作流提供了模型选择策略。最后,通过将WakenLLM与主流推理基线(包括训练和非训练方法)进行比较,我们发现现有基线仅激活了LLMs推理潜能的一小部分,这表明感知感知推理是未来LLM设计的一个有前景的方向。代码和数据集可在 https://github.com/WakenLLMTeam/WakenLLM-toolkit 获取。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员