Environmental, Social, and Governance (ESG) metric knowledge is inherently structured, connecting industries, reporting frameworks, metric categories, metrics, and calculation models through compositional dependencies, yet in practice this structure remains embedded implicitly in regulatory documents such as SASB, TCFD, and IFRS S2 and rarely exists as an explicit, governed, or machine-actionable artefact. Existing ESG ontologies define formal schemas but do not address scalable population and governance from authoritative regulatory sources, while unconstrained large language model (LLM) extraction frequently produces semantically incorrect entities, hallucinated relationships, and structurally invalid graphs. OntoMetric is an ontology-guided framework for the automated construction and governance of ESG metric knowledge graphs from regulatory documents that operationalises the ESG Metric Knowledge Graph (ESGMKG) ontology as a first-class constraint embedded directly into the extraction and population process. The framework integrates structure-aware segmentation, ontology-constrained LLM extraction enriched with semantic fields and deterministic identifiers, and two-phase validation combining semantic type verification with rule-based schema checking, while preserving segment-level and page-level provenance to ensure traceability to regulatory source text. Evaluation on five ESG regulatory standards shows that ontology-guided extraction achieves 65-90 percent semantic accuracy and over 80 percent schema compliance, compared with 3-10 percent for unconstrained baseline extraction, and yields stable cost efficiency with a cost per validated entity of 0.01-0.02 USD and a 48 times efficiency improvement over baseline.


翻译:环境、社会和治理(ESG)指标知识本质上是结构化的,通过组合依赖关系将行业、报告框架、指标类别、指标及计算模型相互关联,然而在实践中,这种结构仍隐含于SASB、TCFD和IFRS S2等监管文件中,极少以显式、受控或机器可操作的形态存在。现有ESG本体虽定义了形式化模式,但未能解决从权威监管来源进行可扩展的知识填充与治理的问题,而无约束的大语言模型(LLM)抽取方法则常产生语义错误的实体、虚构的关系及结构无效的图谱。OntoMetric是一个本体引导的框架,用于从监管文档中自动化构建与治理ESG指标知识图谱,其将ESG指标知识图谱(ESGMKG)本体作为一等约束直接嵌入抽取与填充流程中。该框架集成了结构感知的文档切分、通过语义字段与确定性标识符增强的本体约束LLM抽取,以及结合语义类型验证与基于规则的模式检查的两阶段验证机制,同时保留段落级与页面级溯源信息以确保对监管源文本的可追溯性。在五项ESG监管标准上的评估表明,本体引导的抽取实现了65%-90%的语义准确率与超过80%的模式合规率,而无约束基线抽取的对应数值仅为3%-10%;同时,该框架展现出稳定的成本效益,每个已验证实体的成本为0.01-0.02美元,效率较基线提升48倍。

0
下载
关闭预览

相关内容

知识图谱的自动构建
DataFunTalk
58+阅读 · 2019年12月9日
知识图谱的行业落地实现
竹间智能Emotibot
51+阅读 · 2019年9月16日
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员