Large language models (LLMs) hold great promise for business applications, yet business analysis remains inherently complex, demanding rigorous reasoning and the integration of diverse knowledge sources. Existing benchmarks typically target narrow tasks and thus leave a fundamental question unanswered: how can LLMs be reliably applied in business, and how are these applications grounded in underlying theoretical capabilities? To address this gap, we introduce BizCompass, a benchmark explicitly designed to connect theoretical foundations with practical business knowledge and applications. At the knowledge level, BizCompass covers four core domains--finance, economics, statistics, and operations management. At the application level, it structures tasks around three representative roles: the analyst, the trader, and the consultant. This dual-axis design not only exposes performance differences across realistic scenarios but also diagnoses which foundational capabilities enable or constrain success. We systematically evaluate both open-source and commercial LLMs, revealing how theoretical knowledge translates into practical performance in business. The results provide actionable insights for model selection and training optimization in real-world business contexts. All datasets and evaluation code are publicly released to support reproducibility and future research: https://bizcompass.dev.ypemc.com.


翻译:大语言模型(LLMs)在商业应用领域展现出巨大潜力,然而商业分析本质上具有复杂性,既要求严谨的推理能力,也需要整合多源知识。现有基准测试通常针对狭窄任务,未能回答一个根本问题:如何可靠地将LLMs应用于商业场景?这些应用又基于哪些底层理论能力?为填补这一空白,我们提出BizCompass基准——一个旨在连接理论基础与商业实践知识及应用的评测体系。在知识层面,BizCompass覆盖金融、经济学、统计学和运营管理四大核心领域;在应用层面,其任务结构围绕分析师、交易员和顾问三类代表性角色展开。这种双轴设计不仅能揭示模型在真实场景中的性能差异,更能诊断哪些基础能力对成功起到促进或制约作用。我们系统评估了开源和商业LLMs,揭示了理论知识如何转化为商业实践中的实际表现。研究结果为实际商业场景中的模型选择与训练优化提供了可操作洞见。所有数据集与评估代码均已公开发布,以支持可重复研究与未来探索:https://bizcompass.dev.ypemc.com

0
下载
关闭预览

相关内容

以盈利为导向的组织,在法律框架下向社会提供商品和服务进而在自愿前提下进行的交易行为被称之商业
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
高效大语言模型推理服务综述
专知会员服务
18+阅读 · 2025年4月30日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
大规模知识图谱的构建、推理及应用
人工智能头条
15+阅读 · 2017年8月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员