Corporate financial reports are a valuable source of structured knowledge for Knowledge Graph construction, but the lack of annotated ground truth in this domain makes evaluation difficult. We present a semi-automated pipeline for Subject-Predicate-Object triplet extraction that uses ontology-driven proxy metrics, specifically Ontology Conformance and Faithfulness, instead of ground-truth-based evaluation. We compare a static, manually engineered ontology against a fully automated, document-specific ontology induction approach across different LLMs and two corporate annual reports. The automatically induced ontology achieves 100% schema conformance in all configurations, eliminating the ontology drift observed with the manual approach. We also propose a hybrid verification strategy that combines regex matching with an LLM-as-a-judge check, reducing apparent subject hallucination rates from 65.2% to 1.6% by filtering false positives caused by coreference resolution. Finally, we identify a systematic asymmetry between subject and object hallucinations, which we attribute to passive constructions and omitted agents in financial prose.


翻译:企业财务报告是构建知识图谱的宝贵结构化知识来源,但该领域缺乏标注真实数据使得评估工作难以进行。本文提出一种半自动化流水线,用于主谓宾三元组抽取,该流水线采用本体驱动的代理指标(具体为**本体一致性**和**忠实度**)替代基于真实数据的评估方法。我们比较了静态人工构建的本体与全自动化、文档特定的本体归纳方法,实验覆盖不同的大语言模型和两份企业年度报告。自动归纳的本体在所有配置下均实现了100%的模式一致性,消除了人工方法中观察到的本体漂移现象。我们还提出一种混合验证策略,将正则表达式匹配与大语言模型作为评判者的检查相结合,通过过滤由共指消解导致的误报,将明显的主语幻觉率从65.2%降至1.6%。最后,我们发现了主语与宾语幻觉之间存在系统性不对称现象,并将其归因于财务文本中的被动语态结构和施动者省略。

0
下载
关闭预览

相关内容

「基于深度学习的实体关系联合抽取」研究综述
专知会员服务
43+阅读 · 2023年7月5日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
27+阅读 · 2020年3月1日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
技术动态 | 跨句多元关系抽取
开放知识图谱
50+阅读 · 2019年10月24日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
27+阅读 · 2020年3月1日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
技术动态 | 跨句多元关系抽取
开放知识图谱
50+阅读 · 2019年10月24日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员