Most recommendation benchmarks evaluate how well a model imitates user behavior. In financial advisory, however, observed actions can be noisy or short-sighted under market volatility and may conflict with a user's long-term goals. Treating what users chose as the sole ground truth, therefore, conflates behavioral imitation with decision quality. We introduce Conv-FinRe, a conversational and longitudinal benchmark for stock recommendation that evaluates LLMs beyond behavior matching. Given an onboarding interview, step-wise market context, and advisory dialogues, models must generate rankings over a fixed investment horizon. Crucially, Conv-FinRe provides multi-view references that distinguish descriptive behavior from normative utility grounded in investor-specific risk preferences, enabling diagnosis of whether an LLM follows rational analysis, mimics user noise, or is driven by market momentum. We build the benchmark from real market data and human decision trajectories, instantiate controlled advisory conversations, and evaluate a suite of state-of-the-art LLMs. Results reveal a persistent tension between rational decision quality and behavioral alignment: models that perform well on utility-based ranking often fail to match user choices, whereas behaviorally aligned models can overfit short-term noise. The dataset is publicly released on Hugging Face, and the codebase is available on GitHub.


翻译:大多数推荐基准评估的是模型模仿用户行为的效果。然而,在金融咨询领域,观察到的行为在市场波动下可能是嘈杂或短视的,并且可能与用户的长期目标相冲突。因此,将用户的选择视为唯一事实依据,会将行为模仿与决策质量混为一谈。我们提出了Conv-FinRe,一个用于股票推荐的对话式纵向基准,它评估大型语言模型(LLM)的能力超越了行为匹配的范畴。给定一个入职访谈、逐步的市场背景和咨询对话,模型必须在一个固定的投资期限内生成排名。关键在于,Conv-FinRe提供了多视角参考,这些参考基于投资者特定的风险偏好,将描述性行为与规范化的效用区分开来,从而能够诊断LLM是遵循理性分析、模仿用户噪声,还是受市场动量驱动。我们利用真实市场数据和人类决策轨迹构建了该基准,实例化了受控的咨询对话,并评估了一系列最先进的LLM。结果揭示了理性决策质量与行为对齐之间存在持续的张力:在基于效用的排名上表现良好的模型常常无法匹配用户的选择,而行为对齐的模型则可能过度拟合短期噪声。该数据集已在Hugging Face上公开发布,代码库可在GitHub上获取。

0
下载
关闭预览

相关内容

多模态金融基础模型(MFFMs):进展、前景与挑战
专知会员服务
17+阅读 · 2025年6月8日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
71+阅读 · 2024年2月6日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
深度学习在金融文本情感分类中的应用
AI前线
36+阅读 · 2019年1月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
多模态金融基础模型(MFFMs):进展、前景与挑战
专知会员服务
17+阅读 · 2025年6月8日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
71+阅读 · 2024年2月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员