Strict privacy regulations limit access to real transaction data, slowing open research in financial AI. Synthetic data can bridge this gap, but existing generators do not jointly achieve behavioral diversity and logical groundedness. Rule-driven simulators rely on hand-crafted workflows and shallow stochasticity, which miss the richness of human behavior. Learning-based generators such as GANs capture correlations yet often violate hard financial constraints and still require training on private data. We introduce PersonaLedger, a generation engine that uses a large language model conditioned on rich user personas to produce diverse transaction streams, coupled with an expert configurable programmatic engine that maintains correctness. The LLM and engine interact in a closed loop: after each event, the engine updates the user state, enforces financial rules, and returns a context aware "nextprompt" that guides the LLM toward feasible next actions. With this engine, we create a public dataset of 30 million transactions from 23,000 users and a benchmark suite with two tasks, illiquidity classification and identity theft segmentation. PersonaLedger offers a realistic, privacy preserving resource that supports rigorous evaluation of forecasting and anomaly detection models. PersonaLedger offers the community a rich, realistic, and privacy preserving resource -- complete with code, rules, and generation logs -- to accelerate innovation in financial AI and enable rigorous, reproducible evaluation.


翻译:严格的隐私法规限制了真实交易数据的获取,阻碍了金融人工智能领域的开放研究进程。合成数据可以弥合这一鸿沟,但现有生成器难以同时实现行为多样性与逻辑合理性。基于规则的模拟器依赖人工设计的工作流程和浅层随机性,无法捕捉人类行为的丰富性。基于学习的生成器(如生成对抗网络)虽能捕捉数据相关性,却常违反硬性金融约束,且仍需在私有数据上进行训练。本文提出PersonaLedger——一种生成引擎,它利用基于丰富用户角色进行条件化的大语言模型来生成多样化的交易流,并结合专家可配置的程序化引擎来确保逻辑正确性。大语言模型与引擎形成闭环交互:每个事件发生后,引擎更新用户状态、强制执行金融规则,并返回具有上下文感知的“下一步提示”,引导大语言模型生成可行的后续操作。基于该引擎,我们创建了包含23,000名用户、3,000万笔交易的公开数据集,以及包含流动性不足分类与身份盗用分割两项任务的基准测试套件。PersonaLedger提供了一个逼真且隐私安全的资源,支持对预测模型与异常检测模型进行严格评估。通过开源代码、规则集与生成日志,PersonaLedger为学术界提供了丰富、逼真且隐私安全的完整资源体系,旨在加速金融人工智能的创新,并支持严谨、可复现的评估研究。

0
下载
关闭预览

相关内容

在社会经济生活,银行、证券或保险业者从市场主体募集资金,并投资给其它市场主体的经济活动。
Python图像处理,366页pdf,Image Operators Image Processing in Python
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员