As LLM agents proliferate in prediction markets and collective decision-making, they risk a cognitive monoculture: agents built on shared foundation models produce correlated forecasts, and recent measurement finds frontier-model errors correlated at r ~ 0.77. We ask whether human cognitive diversity can be recovered from behavior and transferred to LLM agents. Nous extracts a structured eight-dimension behavioral profile from real Polymarket trading activity and injects it into agents through prompts. Our central finding is a dissociation between the two halves of that pipeline. Extraction works, partially: across 100 wallets, 8 of 14 parameters are temporally stable (split-half ICC >= 0.5, bootstrap CI lower bound > 0.3; contrarian score reaches ICC ~ 0.9); wallets are identifiable from their profiles well above chance (top-1 retrieval 17-22% vs. 1% chance); and two of four pre-specified dimensions rank-correlate with future realized profit out-of-sample, though the correlations do not survive behavioral-confound controls. Prompt-level injection does not measurably transmit it: on a semantic embedding metric, structured injection shows no significant advantage over a length-matched control on any model, and the diversity it induces neither reduces ensemble error correlation nor improves Brier score -- a null that persists across exploratory checks on sampling temperature, profile diversity, and question difficulty. Measuring the prompts themselves locates the compression before the model: the structure-to-narrative translator emits near-uniform prompts whose spread does not track profile spread. We position Nous as measuring the cognitive-monoculture problem and the limits of a prompt-level remedy, motivating deeper, below-the-prompt injection (fine-tuning, activation steering). Code, frozen profiles, prompts, and model outputs: https://github.com/WillChienT/nous-paper


翻译:随着LLM智能体在预测市场和集体决策中大量涌现,认知同质化风险随之显现:基于共享基础模型构建的智能体会产生关联性预测,最新测量显示前沿模型间的预测误差相关系数高达r≈0.77。我们探究能否从人类行为中恢复认知多样性并将其迁移至LLM智能体。Nous从Polymarket真实交易活动中提取出结构化八维行为特征,并通过提示词注入智能体。核心发现揭示该流程两个环节存在分离:提取环节部分有效——在100个钱包中,14个参数中的8个具有时间稳定性(分半ICC≥0.5,自助法置信区间下限>0.3;逆向投资者得分达ICC≈0.9);基于行为特征识别钱包的成功率显著高于随机水平(top-1检索率17-22%,随机基准1%);预设的四个维度中有两个与样本外未来实现利润存在秩相关,但该相关性在控制行为混淆变量后消失。注入环节未能实现可测量的认知传递:在语义嵌入指标上,结构化注入相比长度匹配的对照方法未在各种模型中展现显著优势,且其诱导的多样性既未降低集成预测误差关联性,也未提升Brier分数——这一零结果在采样温度、特征多样性和问题难度等探索性分析中保持稳健。对提示词本身的测量将压缩瓶颈定位在模型之前:结构-叙事转换器生成了近乎均匀的提示词,其离散度未反映特征分布的离散度。我们将Nous定位为认知同质化问题的测量工具及提示层面补救方案的局限性评估,旨在推动更深层的非提示层面注入方法(微调、激活干预)。代码、固化特征、提示词及模型输出见:https://github.com/WillChienT/nous-paper

0
下载
关闭预览

相关内容

基于大语言模型智能体的社会认知模拟
专知会员服务
19+阅读 · 2月22日
AgentOps综述:分类、挑战与未来方向
专知会员服务
40+阅读 · 2025年8月6日
《直接偏好优化研究综述》
专知会员服务
31+阅读 · 2025年3月18日
数据驱动的态势认知技术及发展思考
专知
19+阅读 · 2022年7月12日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员