Understanding human intent is a high-level cognitive challenge for Large Language Models (LLMs), requiring sophisticated reasoning over noisy, conflicting, and non-linear discourse. While LLMs excel at following individual instructions, their ability to distill Collective Intent - the process of extracting consensus, resolving contradictions, and inferring latent trends from multi-source public discussions - remains largely unexplored. To bridge this gap, we introduce COIN-BENCH, a dynamic, real-world, live-updating benchmark specifically designed to evaluate LLMs on collective intent understanding within the consumer domain. Unlike traditional benchmarks that focus on transactional outcomes, COIN-BENCH operationalizes intent as a hierarchical cognitive structure, ranging from explicit scenarios to deep causal reasoning. We implement a robust evaluation pipeline that combines a rule-based method with an LLM-as-the-Judge approach. This framework incorporates COIN-TREE for hierarchical cognitive structuring and retrieval-augmented verification (COIN-RAG) to ensure expert-level precision in analyzing raw, collective human discussions. An extensive evaluation of 20 state-of-the-art LLMs across four dimensions - depth, breadth, informativeness, and correctness - reveals that while current models can handle surface-level aggregation, they still struggle with the analytical depth required for complex intent synthesis. COIN-BENCH establishes a new standard for advancing LLMs from passive instruction followers to expert-level analytical agents capable of deciphering the collective voice of the real world. See our project page on COIN-BENCH.


翻译:理解人类意图是大语言模型面临的高阶认知挑战,要求对含噪声、矛盾及非线性语篇进行复杂推理。尽管大语言模型擅长遵循个体指令,但其提炼集体意图——从多方公共讨论中提取共识、化解矛盾并推断潜在趋势的能力,仍鲜有探索。为弥补这一空白,我们提出COIN-BENCH——一个动态、真实、实时更新的基准测试,专门用于评估大语言模型在消费领域的集体意图理解能力。与传统聚焦交易结果的基准不同,COIN-BENCH将意图概念化为层级认知结构,从显式场景延伸至深层因果推理。我们构建了稳健的评估流程,融合基于规则的方法与大语言模型即裁判方法。该框架引入COIN-TREE进行层级认知结构化,并采用检索增强验证确保分析原始集体人类讨论的专家级精度。通过对20个前沿大语言模型在深度、广度、信息量与正确性四个维度的全面评估,我们发现当前模型虽能处理表层聚合,但在复杂意图综合所需的分析深度上仍显不足。COIN-BENCH为将大语言模型从被动指令遵循者提升为能够解读真实世界集体声音的专家级分析主体树立了新标杆。详见COIN-BENCH项目页面。

0
下载
关闭预览

相关内容

数据驱动的具身学习探索
专知会员服务
11+阅读 · 2025年2月26日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
对比学习(Contrastive Learning)相关进展梳理
PaperWeekly
11+阅读 · 2020年5月12日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
3+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
对比学习(Contrastive Learning)相关进展梳理
PaperWeekly
11+阅读 · 2020年5月12日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员