Building upon FutureX, which established a live benchmark for general-purpose future prediction, this report introduces FutureX-Pro, including FutureX-Finance, FutureX-Retail, FutureX-PublicHealth, FutureX-NaturalDisaster, and FutureX-Search. These together form a specialized framework extending agentic future prediction to high-value vertical domains. While generalist agents demonstrate proficiency in open-domain search, their reliability in capital-intensive and safety-critical sectors remains under-explored. FutureX-Pro targets four economically and socially pivotal verticals: Finance, Retail, Public Health, and Natural Disaster. We benchmark agentic Large Language Models (LLMs) on entry-level yet foundational prediction tasks -- ranging from forecasting market indicators and supply chain demands to tracking epidemic trends and natural disasters. By adapting the contamination-free, live-evaluation pipeline of FutureX, we assess whether current State-of-the-Art (SOTA) agentic LLMs possess the domain grounding necessary for industrial deployment. Our findings reveal the performance gap between generalist reasoning and the precision required for high-value vertical applications.


翻译:基于为通用未来预测建立实时基准的FutureX,本报告介绍了FutureX-Pro,包括FutureX-Finance、FutureX-Retail、FutureX-PublicHealth、FutureX-NaturalDisaster和FutureX-Search。这些共同构成了一个将智能体未来预测拓展至高价值垂直领域的专业化框架。尽管通用智能体在开放领域搜索中表现出色,但它们在资本密集型和安全性关键领域的可靠性仍有待探索。FutureX-Pro瞄准四个经济与社会关键垂直领域:金融、零售、公共卫生和自然灾害。我们在入门级但基础性的预测任务上对智能体大语言模型进行基准测试——涵盖从预测市场指标和供应链需求到追踪流行病趋势与自然灾害。通过采用FutureX的无污染实时评估流程,我们评估当前最先进的智能体大语言模型是否具备工业部署所需的领域基础。我们的研究结果揭示了通用推理能力与高价值垂直应用所需精度之间的性能差距。

0
下载
关闭预览

相关内容

《深度学习在时间序列预测中的应用:综述》
专知会员服务
29+阅读 · 2025年3月14日
《2025 年热门科技趋势:人工智能驱动一切》最新104页
专知会员服务
52+阅读 · 2025年1月16日
深度预测学习:模型与应用
专知会员服务
49+阅读 · 2022年12月5日
【机器学习】机器学习:未来十年研究热点
产业智能官
17+阅读 · 2018年11月4日
15款免费预测分析软件!收藏好,别丢了!
七月在线实验室
11+阅读 · 2018年2月27日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
0+阅读 · 今天14:36
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
6+阅读 · 今天11:13
电子战革命:塑造战场的十年突破(2015–2025)
专知会员服务
4+阅读 · 今天9:19
人工智能即服务与未来战争(印度视角)
专知会员服务
2+阅读 · 今天7:57
《美国战争部2027财年军事人员预算》
专知会员服务
2+阅读 · 今天7:44
伊朗战争中的电子战
专知会员服务
5+阅读 · 今天7:04
大语言模型平台在国防情报应用中的对比
专知会员服务
8+阅读 · 今天3:12
相关VIP内容
《深度学习在时间序列预测中的应用:综述》
专知会员服务
29+阅读 · 2025年3月14日
《2025 年热门科技趋势:人工智能驱动一切》最新104页
专知会员服务
52+阅读 · 2025年1月16日
深度预测学习:模型与应用
专知会员服务
49+阅读 · 2022年12月5日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员