Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers - 专知论文

会员服务 ·

0

论文 · AI · 论文撰写 · 构建 · ClaudeCode ·

Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

翻译：论文重构评估：评估AI撰写论文的表现与幻觉

Atsuyuki Miyai,Mashiro Toyooka,Zaiying Zhao,Kenta Watanabe,Toshihiko Yamasaki,Kiyoharu Aizawa

from arxiv, Project Page: https://agent4science-utokyo.github.io/PaperRecon_HP/

This paper introduces the first systematic evaluation framework for quantifying the quality and risks of papers written by modern coding agents. While AI-driven paper writing has become a growing concern, rigorous evaluation of the quality and potential risks of AI-written papers remains limited, and a unified understanding of their reliability is still lacking. We introduce Paper Reconstruction Evaluation (PaperRecon), an evaluation framework in which an overview (overview.md) is created from an existing paper, after which an agent generates a full paper based on the overview and minimal additional resources, and the result is subsequently compared against the original paper. PaperRecon disentangles the evaluation of the AI-written papers into two orthogonal dimensions, Presentation and Hallucination, where Presentation is evaluated using a rubric and Hallucination is assessed via agentic evaluation grounded in the original paper source. For evaluation, we introduce PaperWrite-Bench, a benchmark of 51 papers from top-tier venues across diverse domains published after 2025. Our experiments reveal a clear trade-off: while both ClaudeCode and Codex improve with model advances, ClaudeCode achieves higher presentation quality at the cost of more than 10 hallucinations per paper on average, whereas Codex produces fewer hallucinations but lower presentation quality. This work takes a first step toward establishing evaluation frameworks for AI-driven paper writing and improving the understanding of its risks within the research community.

翻译：本文提出了首个系统化评估框架，用于量化现代编码代理所撰写论文的质量与风险。尽管AI驱动的论文撰写已成为日益严峻的问题，但针对AI生成论文质量与潜在风险的严谨评估仍十分有限，学界对其可靠性的统一认知依然欠缺。我们引入论文重构评估（PaperRecon）框架，其流程为：从现有论文中生成概览文件（overview.md），随后由智能体基于该概览与最少附加资源生成完整论文，最后将生成结果与原始论文进行对比。PaperRecon将AI生成论文的评估解耦为两个正交维度——表现与幻觉：表现维度通过评分细则进行评估，幻觉维度则依托原始论文来源进行智能体评估。为实施评估，我们构建了PaperWrite-Bench基准测试集，涵盖2025年后发表于顶级学术会议、覆盖多学科的51篇论文。实验揭示出明确权衡关系：ClaudeCode和Codex均随模型进步而性能提升，但ClaudeCode在实现更高表现质量的同时，平均每篇论文产生超过10次幻觉；而Codex虽产生更少幻觉，但其表现质量较低。本研究迈出了构建AI驱动论文撰写评估框架的第一步，有助于研究社区深化对其风险的理解。

0

相关内容

论文（Paper）是专知网站核心资料文档，包括全球顶级期刊、顶级会议论文，及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊，CCF-A、B、C三类。通过人机协作方式，汇编、挖掘后呈现于专知网站。

【博士论文】可信人工智能：从模型到智能体的可靠性与问责保障

【博士论文】可信人工智能：从模型到智能体的可靠性与问责保障

专知会员服务

14+阅读 · 5月20日

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

专知会员服务

13+阅读 · 4月9日

如何画好论文框架图？北大谷歌发布PaperBanana：面向人工智能学者的学术论文绘图自动化系统

如何画好论文框架图？北大谷歌发布PaperBanana：面向人工智能学者的学术论文绘图自动化系统

专知会员服务

18+阅读 · 2月5日

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

17+阅读 · 2025年12月8日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

《负责任人工智能：概念、批判观点和信息系统研究议程》2022.12最新论文，挪威科技大学等

《负责任人工智能：概念、批判观点和信息系统研究议程》2022.12最新论文，挪威科技大学等

专知会员服务

26+阅读 · 2023年1月18日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

你的毕业论文过了吗？宗老师这份《如何撰写毕业论文？》27页ppt帮你把把关，中科院自动化所模式国重宗成庆研究员

你的毕业论文过了吗？宗老师这份《如何撰写毕业论文？》27页ppt帮你把把关，中科院自动化所模式国重宗成庆研究员

专知会员服务

149+阅读 · 2020年4月3日

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

专知会员服务

32+阅读 · 2019年10月25日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

重磅！AI框架发展白皮书（2022年）,44页pdf

重磅！AI框架发展白皮书（2022年）,44页pdf

专知

28+阅读 · 2022年2月27日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

如何阅读AI顶会论文，搭建深度学习知识体系框架？

如何阅读AI顶会论文，搭建深度学习知识体系框架？

PaperWeekly

10+阅读 · 2019年8月24日

机器翻译学术论文写作方法和技巧

机器翻译学术论文写作方法和技巧

清华大学研究生教育

11+阅读 · 2018年12月23日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

AI综述专栏|跨领域推荐系统文献综述（下）

AI综述专栏|跨领域推荐系统文献综述（下）

人工智能前沿讲习班

14+阅读 · 2018年5月18日

AI综述专栏 | 跨领域推荐系统文献综述（上）

AI综述专栏 | 跨领域推荐系统文献综述（上）

人工智能前沿讲习班

13+阅读 · 2018年5月16日

如何用人工智能帮你找论文？

如何用人工智能帮你找论文？

AI100

10+阅读 · 2018年2月21日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

Co-Writing with AI: An Empirical Study of Diverse Academic Writing Workflows

Arxiv

0+阅读 · 4月28日

AI-Augmented Bibliometric Framework: A Paradigm Shift with Agentic AI for Dynamic, Snippet-Based Research Analysis

Arxiv

0+阅读 · 4月28日

PAPERMIND: Benchmarking Agentic Reasoning and Critique over Scientific Papers in Multimodal LLMs

Arxiv

0+阅读 · 4月23日

From Intention to Text: AI-Supported Goal Setting in Academic Writing

Arxiv

0+阅读 · 4月17日

StoryScope: Investigating idiosyncrasies in AI fiction

Arxiv

0+阅读 · 4月3日

AI-Assisted Unit Test Writing and Test-Driven Code Refactoring: A Case Study

Arxiv

0+阅读 · 4月3日

Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Replication and Reanalysis

Arxiv

0+阅读 · 3月25日

Reactive Writers: How Co-Writing with AI Changes How We Engage with Ideas

Arxiv

0+阅读 · 3月11日

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

Arxiv

0+阅读 · 3月4日

Human-LLM Compound System for Scientific Ideation through Facet Recombination and Novelty Evaluation

Arxiv

0+阅读 · 3月2日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

4+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

2+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

2+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

3+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

4+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

3+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

【博士论文】可信人工智能：从模型到智能体的可靠性与问责保障

【博士论文】可信人工智能：从模型到智能体的可靠性与问责保障

专知会员服务

14+阅读 · 5月20日

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

专知会员服务

13+阅读 · 4月9日

如何画好论文框架图？北大谷歌发布PaperBanana：面向人工智能学者的学术论文绘图自动化系统

如何画好论文框架图？北大谷歌发布PaperBanana：面向人工智能学者的学术论文绘图自动化系统

专知会员服务

18+阅读 · 2月5日

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

17+阅读 · 2025年12月8日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

《负责任人工智能：概念、批判观点和信息系统研究议程》2022.12最新论文，挪威科技大学等

《负责任人工智能：概念、批判观点和信息系统研究议程》2022.12最新论文，挪威科技大学等

专知会员服务

26+阅读 · 2023年1月18日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

你的毕业论文过了吗？宗老师这份《如何撰写毕业论文？》27页ppt帮你把把关，中科院自动化所模式国重宗成庆研究员

你的毕业论文过了吗？宗老师这份《如何撰写毕业论文？》27页ppt帮你把把关，中科院自动化所模式国重宗成庆研究员

专知会员服务

149+阅读 · 2020年4月3日

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

专知会员服务

32+阅读 · 2019年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

重磅！AI框架发展白皮书（2022年）,44页pdf

重磅！AI框架发展白皮书（2022年）,44页pdf

专知

28+阅读 · 2022年2月27日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

如何阅读AI顶会论文，搭建深度学习知识体系框架？

如何阅读AI顶会论文，搭建深度学习知识体系框架？

PaperWeekly

10+阅读 · 2019年8月24日

机器翻译学术论文写作方法和技巧

机器翻译学术论文写作方法和技巧

清华大学研究生教育

11+阅读 · 2018年12月23日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

AI综述专栏|跨领域推荐系统文献综述（下）

AI综述专栏|跨领域推荐系统文献综述（下）

人工智能前沿讲习班

14+阅读 · 2018年5月18日

AI综述专栏 | 跨领域推荐系统文献综述（上）

AI综述专栏 | 跨领域推荐系统文献综述（上）

人工智能前沿讲习班

13+阅读 · 2018年5月16日

如何用人工智能帮你找论文？

如何用人工智能帮你找论文？

AI100

10+阅读 · 2018年2月21日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Co-Writing with AI: An Empirical Study of Diverse Academic Writing Workflows

Arxiv

0+阅读 · 4月28日

AI-Augmented Bibliometric Framework: A Paradigm Shift with Agentic AI for Dynamic, Snippet-Based Research Analysis

Arxiv

0+阅读 · 4月28日

PAPERMIND: Benchmarking Agentic Reasoning and Critique over Scientific Papers in Multimodal LLMs

Arxiv

0+阅读 · 4月23日

From Intention to Text: AI-Supported Goal Setting in Academic Writing

Arxiv

0+阅读 · 4月17日

StoryScope: Investigating idiosyncrasies in AI fiction

Arxiv

0+阅读 · 4月3日

AI-Assisted Unit Test Writing and Test-Driven Code Refactoring: A Case Study

Arxiv

0+阅读 · 4月3日

Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Replication and Reanalysis

Arxiv

0+阅读 · 3月25日

Reactive Writers: How Co-Writing with AI Changes How We Engage with Ideas

Arxiv

0+阅读 · 3月11日

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

Arxiv

0+阅读 · 3月4日

Human-LLM Compound System for Scientific Ideation through Facet Recombination and Novelty Evaluation

Arxiv

0+阅读 · 3月2日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员