ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation - 专知论文

会员服务 ·

0

基准 · 报告 · 分析 · 问答 · CoT ·

ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

翻译：ESG-Bench：面向幻觉缓解的长上下文ESG报告基准测试

Siqi Sun,Ben Peng Wu,Mali Jin,Peizhen Bai,Hanpei Zhang,Xingyi Song

from arxiv, To be published in the AAAI 2026 proceedings

As corporate responsibility increasingly incorporates environmental, social, and governance (ESG) criteria, ESG reporting is becoming a legal requirement in many regions and a key channel for documenting sustainability practices and assessing firms' long-term and ethical performance. However, the length and complexity of ESG disclosures make them difficult to interpret and automate the analysis reliably. To support scalable and trustworthy analysis, this paper introduces ESG-Bench, a benchmark dataset for ESG report understanding and hallucination mitigation in large language models (LLMs). ESG-Bench contains human-annotated question-answer (QA) pairs grounded in real-world ESG report contexts, with fine-grained labels indicating whether model outputs are factually supported or hallucinated. Framing ESG report analysis as a QA task with verifiability constraints enables systematic evaluation of LLMs' ability to extract and reason over ESG content and provides a new use case: mitigating hallucinations in socially sensitive, compliance-critical settings. We design task-specific Chain-of-Thought (CoT) prompting strategies and fine-tune multiple state-of-the-art LLMs on ESG-Bench using CoT-annotated rationales. Our experiments show that these CoT-based methods substantially outperform standard prompting and direct fine-tuning in reducing hallucinations, and that the gains transfer to existing QA benchmarks beyond the ESG domain.

翻译：随着企业责任日益融入环境、社会和治理（ESG）标准，ESG报告正成为许多地区的法定要求，也是记录可持续发展实践、评估企业长期与伦理绩效的关键渠道。然而，ESG披露文件的长度与复杂性使其难以被可靠地解读或实现自动化分析。为支持可扩展且可信的分析，本文提出ESG-Bench——一个面向大语言模型（LLMs）的ESG报告理解与幻觉缓解基准数据集。ESG-Bench包含基于真实ESG报告语境的人工标注问答对，并带有细粒度标签以指示模型输出是否具备事实依据或存在幻觉。将ESG报告分析构建为具有可验证性约束的问答任务，既能系统评估LLMs提取与推理ESG内容的能力，也提供了一个新的应用场景：在社会敏感、合规关键的环境中缓解幻觉问题。我们设计了任务特定的思维链（CoT）提示策略，并利用带CoT标注的推理依据对多个前沿LLMs在ESG-Bench上进行微调。实验表明，这些基于CoT的方法在减少幻觉方面显著优于标准提示与直接微调，且其增益可迁移至ESG领域之外的现有问答基准。

0

相关内容

【牛津大学博士论文】面向电子健康记录的深度学习:风险预测、可解释性和不确定性，200页pdf

【牛津大学博士论文】面向电子健康记录的深度学习:风险预测、可解释性和不确定性，200页pdf

专知会员服务

46+阅读 · 2023年7月18日

可信隐私计算研究报告（2022年）

可信隐私计算研究报告（2022年）

专知会员服务

105+阅读 · 2022年7月30日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

【香港中文大学】基于Aspect的情感分析综述论文，A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges

【香港中文大学】基于Aspect的情感分析综述论文，A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges

专知会员服务

20+阅读 · 2022年3月3日

联邦学习场景应用研究报告（2022年），72页pdf

联邦学习场景应用研究报告（2022年），72页pdf

专知会员服务

267+阅读 · 2022年2月22日

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

专知会员服务

47+阅读 · 2020年6月3日

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

专知会员服务

42+阅读 · 2020年3月17日

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

专知会员服务

24+阅读 · 2020年2月16日

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

专知会员服务

16+阅读 · 2019年12月3日

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

专知会员服务

40+阅读 · 2019年11月23日

重磅！联邦学习场景应用研究报告（2022年），72页pdf

重磅！联邦学习场景应用研究报告（2022年），72页pdf

专知

12+阅读 · 2022年2月22日

我用NLP搞定了文本情感分析，还学会了基于注意力的Transformer

我用NLP搞定了文本情感分析，还学会了基于注意力的Transformer

CVer

15+阅读 · 2020年7月27日

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

AINLP

75+阅读 · 2020年1月14日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

专知

19+阅读 · 2018年3月16日

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

专知

55+阅读 · 2018年1月28日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

短文本情感分析关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

社会信任程度对于审计师行为的影响及经济后果研究——基于事务所和签字审计师层面

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

前瞻性非财务信息披露质量研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动社会网络中情境感知的多维个性化信任评价研究

国家自然科学基金

2+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

Benchmarking Large Language Models on Reference Extraction and Parsing in the Social Sciences and Humanities

Arxiv

0+阅读 · 3月13日

Towards Contextual Sensitive Data Detection

Arxiv

0+阅读 · 3月12日

SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Arxiv

0+阅读 · 3月5日

SpotIt: Evaluating Text-to-SQL Evaluation with Formal Verification

Arxiv

0+阅读 · 3月4日

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

Arxiv

0+阅读 · 3月3日

SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables

Arxiv

0+阅读 · 2月26日

MUCH: A Multilingual Claim Hallucination Benchmark

Arxiv

0+阅读 · 2月20日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 2月3日

ALPBench: A Benchmark for Attribution-level Long-term Personal Behavior Understanding

Arxiv

0+阅读 · 2月3日

ES-MemEval: Benchmarking Conversational Agents on Personalized Long-Term Emotional Support

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

7+阅读 · 今天12:11

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

4+阅读 · 今天12:07

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

6+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

3+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

10+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

9+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

6+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

5+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

5+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

5+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

7+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

6+阅读 · 今天6:09

相关VIP内容

【牛津大学博士论文】面向电子健康记录的深度学习:风险预测、可解释性和不确定性，200页pdf

【牛津大学博士论文】面向电子健康记录的深度学习:风险预测、可解释性和不确定性，200页pdf

专知会员服务

46+阅读 · 2023年7月18日

可信隐私计算研究报告（2022年）

可信隐私计算研究报告（2022年）

专知会员服务

105+阅读 · 2022年7月30日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

【香港中文大学】基于Aspect的情感分析综述论文，A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges

【香港中文大学】基于Aspect的情感分析综述论文，A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges

专知会员服务

20+阅读 · 2022年3月3日

联邦学习场景应用研究报告（2022年），72页pdf

联邦学习场景应用研究报告（2022年），72页pdf

专知会员服务

267+阅读 · 2022年2月22日

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

专知会员服务

47+阅读 · 2020年6月3日

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

专知会员服务

42+阅读 · 2020年3月17日

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

专知会员服务

24+阅读 · 2020年2月16日

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

专知会员服务

16+阅读 · 2019年12月3日

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

专知会员服务

40+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

重磅！联邦学习场景应用研究报告（2022年），72页pdf

重磅！联邦学习场景应用研究报告（2022年），72页pdf

专知

12+阅读 · 2022年2月22日

我用NLP搞定了文本情感分析，还学会了基于注意力的Transformer

我用NLP搞定了文本情感分析，还学会了基于注意力的Transformer

CVer

15+阅读 · 2020年7月27日

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

AINLP

75+阅读 · 2020年1月14日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

专知

19+阅读 · 2018年3月16日

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

专知

55+阅读 · 2018年1月28日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

相关论文

Benchmarking Large Language Models on Reference Extraction and Parsing in the Social Sciences and Humanities

Arxiv

0+阅读 · 3月13日

Towards Contextual Sensitive Data Detection

Arxiv

0+阅读 · 3月12日

SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Arxiv

0+阅读 · 3月5日

SpotIt: Evaluating Text-to-SQL Evaluation with Formal Verification

Arxiv

0+阅读 · 3月4日

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

Arxiv

0+阅读 · 3月3日

SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables

Arxiv

0+阅读 · 2月26日

MUCH: A Multilingual Claim Hallucination Benchmark

Arxiv

0+阅读 · 2月20日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 2月3日

ALPBench: A Benchmark for Attribution-level Long-term Personal Behavior Understanding

Arxiv

0+阅读 · 2月3日

ES-MemEval: Benchmarking Conversational Agents on Personalized Long-Term Emotional Support

Arxiv

0+阅读 · 2月2日

相关基金

短文本情感分析关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

社会信任程度对于审计师行为的影响及经济后果研究——基于事务所和签字审计师层面

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

前瞻性非财务信息披露质量研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动社会网络中情境感知的多维个性化信任评价研究

国家自然科学基金

2+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员