Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation - 专知论文

会员服务 ·

0

基准 · 效用 · 金融 · 投资 · 噪声 ·

Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

翻译：Conv-FinRe：一个用于效用驱动金融推荐的对话式纵向基准

Yan Wang,Yi Han,Lingfei Qian,Yueru He,Xueqing Peng,Dongji Feng,Zhuohan Xie,Vincent Jim Zhang,Rosie Guo,Fengran Mo,Jimin Huang,Yankai Chen,Xue Liu,Jian-Yun Nie

Most recommendation benchmarks evaluate how well a model imitates user behavior. In financial advisory, however, observed actions can be noisy or short-sighted under market volatility and may conflict with a user's long-term goals. Treating what users chose as the sole ground truth, therefore, conflates behavioral imitation with decision quality. We introduce Conv-FinRe, a conversational and longitudinal benchmark for stock recommendation that evaluates LLMs beyond behavior matching. Given an onboarding interview, step-wise market context, and advisory dialogues, models must generate rankings over a fixed investment horizon. Crucially, Conv-FinRe provides multi-view references that distinguish descriptive behavior from normative utility grounded in investor-specific risk preferences, enabling diagnosis of whether an LLM follows rational analysis, mimics user noise, or is driven by market momentum. We build the benchmark from real market data and human decision trajectories, instantiate controlled advisory conversations, and evaluate a suite of state-of-the-art LLMs. Results reveal a persistent tension between rational decision quality and behavioral alignment: models that perform well on utility-based ranking often fail to match user choices, whereas behaviorally aligned models can overfit short-term noise. The dataset is publicly released on Hugging Face, and the codebase is available on GitHub.

翻译：大多数推荐基准评估的是模型模仿用户行为的效果。然而，在金融咨询领域，观察到的行为在市场波动下可能是嘈杂或短视的，并且可能与用户的长期目标相冲突。因此，将用户的选择视为唯一事实依据，会将行为模仿与决策质量混为一谈。我们提出了Conv-FinRe，一个用于股票推荐的对话式纵向基准，它评估大型语言模型（LLM）的能力超越了行为匹配的范畴。给定一个入职访谈、逐步的市场背景和咨询对话，模型必须在一个固定的投资期限内生成排名。关键在于，Conv-FinRe提供了多视角参考，这些参考基于投资者特定的风险偏好，将描述性行为与规范化的效用区分开来，从而能够诊断LLM是遵循理性分析、模仿用户噪声，还是受市场动量驱动。我们利用真实市场数据和人类决策轨迹构建了该基准，实例化了受控的咨询对话，并评估了一系列最先进的LLM。结果揭示了理性决策质量与行为对齐之间存在持续的张力：在基于效用的排名上表现良好的模型常常无法匹配用户的选择，而行为对齐的模型则可能过度拟合短期噪声。该数据集已在Hugging Face上公开发布，代码库可在GitHub上获取。

0

相关内容

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

专知会员服务

5+阅读 · 2月20日

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

专知会员服务

20+阅读 · 2025年11月11日

多模态金融基础模型（MFFMs）：进展、前景与挑战

多模态金融基础模型（MFFMs）：进展、前景与挑战

专知会员服务

19+阅读 · 2025年6月8日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

金融领域大型语言模型综述（FinLLMs）

金融领域大型语言模型综述（FinLLMs）

专知会员服务

71+阅读 · 2024年2月6日

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

专知会员服务

49+阅读 · 2023年2月13日

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

专知会员服务

108+阅读 · 2022年4月28日

【CIKM2020-北大】Set-Sequence-Graph:一种利用评论来获取推荐的多视图方法

专知会员服务

21+阅读 · 2020年9月22日

对话推荐系统综述论文，35页pdf，A Survey on Conversational Recommender Systems

对话推荐系统综述论文，35页pdf，A Survey on Conversational Recommender Systems

专知会员服务

117+阅读 · 2020年4月3日

【NLPCC2019 Tutorial】个性化推荐的基础与趋势（Foundations and Trends for Personalized Recommendation）附145页ppt，清华大学张敏老师

【NLPCC2019 Tutorial】个性化推荐的基础与趋势（Foundations and Trends for Personalized Recommendation）附145页ppt，清华大学张敏老师

专知会员服务

68+阅读 · 2019年11月22日

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

开放知识图谱

10+阅读 · 2022年8月8日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

深度学习在金融文本情感分类中的应用

深度学习在金融文本情感分类中的应用

AI前线

36+阅读 · 2019年1月12日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

数据分析

13+阅读 · 2018年8月15日

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

专知

12+阅读 · 2018年4月26日

金融科技&大数据产品推荐：达观数据—金融平台产品及资讯个性化推荐引擎

金融科技&大数据产品推荐：达观数据—金融平台产品及资讯个性化推荐引擎

数据猿

10+阅读 · 2017年9月19日

集成专家意见的在线投资组合策略设计及竞争性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

投资者有限关注与证券市场监管：基于大数据和计算实验的方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于反射理论的信息驱动金融市场模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机波动率模型下金融衍生产品定价中的条件蒙特卡罗加速方法

国家自然科学基金

1+阅读 · 2015年12月31日

融合多源大数据的互联网金融个性化价值发现与风险评测

国家自然科学基金

2+阅读 · 2015年12月31日

信任、投资者参与模式与股票市场发展研究

国家自然科学基金

0+阅读 · 2014年12月31日

互联网金融三维信任机制及参与者信任感知与交易决策

国家自然科学基金

0+阅读 · 2014年12月31日

非对称随机波动建模及其在金融风险管理中的应用研究

国家自然科学基金

4+阅读 · 2014年12月31日

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

Arxiv

0+阅读 · 3月16日

FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

Arxiv

0+阅读 · 3月11日

FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information

Arxiv

0+阅读 · 2月19日

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

Arxiv

0+阅读 · 2月19日

ConvApparel: A Benchmark Dataset and Validation Framework for User Simulators in Conversational Recommenders

Arxiv

0+阅读 · 2月18日

Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings

Arxiv

0+阅读 · 2月12日

Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings

Arxiv

0+阅读 · 2月7日

Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning

Arxiv

0+阅读 · 2月5日

FinCoT: Grounding Chain-of-Thought in Expert Financial Reasoning

Arxiv

0+阅读 · 2月2日

FinEvo: From Isolated Backtests to Ecological Market Games for Multi-Agent Financial Strategy Evolution

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

5+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

6+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

2+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

2+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

3+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

7+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

5+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

8+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

8+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

专知会员服务

5+阅读 · 2月20日

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

专知会员服务

20+阅读 · 2025年11月11日

多模态金融基础模型（MFFMs）：进展、前景与挑战

多模态金融基础模型（MFFMs）：进展、前景与挑战

专知会员服务

19+阅读 · 2025年6月8日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

金融领域大型语言模型综述（FinLLMs）

金融领域大型语言模型综述（FinLLMs）

专知会员服务

71+阅读 · 2024年2月6日

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

专知会员服务

49+阅读 · 2023年2月13日

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

专知会员服务

108+阅读 · 2022年4月28日

【CIKM2020-北大】Set-Sequence-Graph:一种利用评论来获取推荐的多视图方法

专知会员服务

21+阅读 · 2020年9月22日

对话推荐系统综述论文，35页pdf，A Survey on Conversational Recommender Systems

对话推荐系统综述论文，35页pdf，A Survey on Conversational Recommender Systems

专知会员服务

117+阅读 · 2020年4月3日

【NLPCC2019 Tutorial】个性化推荐的基础与趋势（Foundations and Trends for Personalized Recommendation）附145页ppt，清华大学张敏老师

【NLPCC2019 Tutorial】个性化推荐的基础与趋势（Foundations and Trends for Personalized Recommendation）附145页ppt，清华大学张敏老师

专知会员服务

68+阅读 · 2019年11月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

开放知识图谱

10+阅读 · 2022年8月8日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

深度学习在金融文本情感分类中的应用

深度学习在金融文本情感分类中的应用

AI前线

36+阅读 · 2019年1月12日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

数据分析

13+阅读 · 2018年8月15日

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

专知

12+阅读 · 2018年4月26日

金融科技&大数据产品推荐：达观数据—金融平台产品及资讯个性化推荐引擎

金融科技&大数据产品推荐：达观数据—金融平台产品及资讯个性化推荐引擎

数据猿

10+阅读 · 2017年9月19日

相关论文

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

Arxiv

0+阅读 · 3月16日

FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

Arxiv

0+阅读 · 3月11日

FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information

Arxiv

0+阅读 · 2月19日

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

Arxiv

0+阅读 · 2月19日

ConvApparel: A Benchmark Dataset and Validation Framework for User Simulators in Conversational Recommenders

Arxiv

0+阅读 · 2月18日

Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings

Arxiv

0+阅读 · 2月12日

Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings

Arxiv

0+阅读 · 2月7日

Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning

Arxiv

0+阅读 · 2月5日

FinCoT: Grounding Chain-of-Thought in Expert Financial Reasoning

Arxiv

0+阅读 · 2月2日

FinEvo: From Isolated Backtests to Ecological Market Games for Multi-Agent Financial Strategy Evolution

Arxiv

0+阅读 · 2月1日

相关基金

集成专家意见的在线投资组合策略设计及竞争性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

投资者有限关注与证券市场监管：基于大数据和计算实验的方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于反射理论的信息驱动金融市场模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机波动率模型下金融衍生产品定价中的条件蒙特卡罗加速方法

国家自然科学基金

1+阅读 · 2015年12月31日

融合多源大数据的互联网金融个性化价值发现与风险评测

国家自然科学基金

2+阅读 · 2015年12月31日

信任、投资者参与模式与股票市场发展研究

国家自然科学基金

0+阅读 · 2014年12月31日

互联网金融三维信任机制及参与者信任感知与交易决策

国家自然科学基金

0+阅读 · 2014年12月31日

非对称随机波动建模及其在金融风险管理中的应用研究

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员