An Auditable AI Agent Loop for Empirical Economics: A Case Study in Forecast Combination - 专知论文

会员服务 ·

0

An Auditable AI Agent Loop for Empirical Economics: A Case Study in Forecast Combination

翻译：面向经验经济学的可审计AI代理循环：预测组合中的案例研究

from arxiv, 32 pages, no figure

AI coding agents make empirical specification search fast and cheap, but they also widen hidden researcher degrees of freedom. Building on an open-source agent-loop architecture, this paper adapts that framework to an empirical economics workflow and adds a post-search holdout evaluation. In a forecast-combination illustration, multiple independent agent runs outperform standard benchmarks in the original rolling evaluation, but not all continue to do so on a post-search holdout. Logged search and holdout evaluation together make adaptive specification search more transparent and help distinguish robust improvements from sample-specific discoveries.

翻译：AI编码代理使经验性规范搜索变得快速且廉价，但也扩大了隐藏的研究者自由度。本文基于开源代理循环架构，将此框架适配至经验经济学工作流，并增加了搜索后留存样本评估。在预测组合的示例中，多次独立代理运行在原始滚动评估中表现优于标准基准，但并非所有结果在搜索后的留存样本中仍能保持优势。结合日志记录的搜索过程与留存样本评估，既增强了适应性规范搜索的透明度，也有助于区分稳健改进与样本特异性发现。

0

相关内容

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

15+阅读 · 5月20日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

基于动态知识图谱的人工智能代理自主研究周期 | 文献

基于动态知识图谱的人工智能代理自主研究周期 | 文献

专知会员服务

26+阅读 · 2025年10月24日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

专知会员服务

33+阅读 · 2025年2月10日

代码大模型有何进展？《神经代码智能》最新综述：范式、进步与未来

代码大模型有何进展？《神经代码智能》最新综述：范式、进步与未来

专知会员服务

54+阅读 · 2024年3月25日

【AI+金融】《将深度神经网络应用于金融时序预测》斯坦福

【AI+金融】《将深度神经网络应用于金融时序预测》斯坦福

专知会员服务

63+阅读 · 2022年4月27日

【AI+会计审计】2022最新paper《内部审计中的人工智能有助于有效治理：深度学习能够检测财务会计数据中的异常现象》

【AI+会计审计】2022最新paper《内部审计中的人工智能有助于有效治理：深度学习能够检测财务会计数据中的异常现象》

专知会员服务

13+阅读 · 2022年3月28日

华东师大最新《人在环路机器学习》综述论文，224篇文献30页pdf

华东师大最新《人在环路机器学习》综述论文，224篇文献30页pdf

专知会员服务

82+阅读 · 2021年8月3日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

量化投资与机器学习

25+阅读 · 2018年11月20日

深度学习循环神经网络详解

深度学习循环神经网络详解

七月在线实验室

16+阅读 · 2018年5月28日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

Closing the Loop: A Software Framework for AI to Support Business Decision Making

Arxiv

0+阅读 · 4月27日

How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks

Arxiv

0+阅读 · 4月24日

Auditing and Controlling AI Agent Actions in Spreadsheets

Arxiv

0+阅读 · 4月22日

Cycle-Consistent Search: Question Reconstructability as a Proxy Reward for Search Agent Training

Arxiv

0+阅读 · 4月14日

EigentSearch-Q+: Enhancing Deep Research Agents with Structured Reasoning Tools

Arxiv

0+阅读 · 4月10日

Compute Allocation for Reasoning-Intensive Retrieval Agents

Arxiv

0+阅读 · 3月21日

Auditing Google's AI Overviews and Featured Snippets: A Case Study on Baby Care and Pregnancy

Arxiv

0+阅读 · 3月20日

An Auditable AI Agent Loop for Empirical Economics: A Case Study in Forecast Combination

Arxiv

0+阅读 · 3月20日

An Auditable AI Agent Loop for Empirical Economics: A Case Study in Forecast Combination

Arxiv

0+阅读 · 3月18日

A Framework for Studying AI Agent Behavior: Evidence from Consumer Choice Experiments

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

0+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

0+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

3+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

3+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

7+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

4+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

5+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

5+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

相关VIP内容

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

15+阅读 · 5月20日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

基于动态知识图谱的人工智能代理自主研究周期 | 文献

基于动态知识图谱的人工智能代理自主研究周期 | 文献

专知会员服务

26+阅读 · 2025年10月24日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

专知会员服务

33+阅读 · 2025年2月10日

代码大模型有何进展？《神经代码智能》最新综述：范式、进步与未来

代码大模型有何进展？《神经代码智能》最新综述：范式、进步与未来

专知会员服务

54+阅读 · 2024年3月25日

【AI+金融】《将深度神经网络应用于金融时序预测》斯坦福

【AI+金融】《将深度神经网络应用于金融时序预测》斯坦福

专知会员服务

63+阅读 · 2022年4月27日

【AI+会计审计】2022最新paper《内部审计中的人工智能有助于有效治理：深度学习能够检测财务会计数据中的异常现象》

【AI+会计审计】2022最新paper《内部审计中的人工智能有助于有效治理：深度学习能够检测财务会计数据中的异常现象》

专知会员服务

13+阅读 · 2022年3月28日

华东师大最新《人在环路机器学习》综述论文，224篇文献30页pdf

华东师大最新《人在环路机器学习》综述论文，224篇文献30页pdf

专知会员服务

82+阅读 · 2021年8月3日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

量化投资与机器学习

25+阅读 · 2018年11月20日

深度学习循环神经网络详解

深度学习循环神经网络详解

七月在线实验室

16+阅读 · 2018年5月28日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Closing the Loop: A Software Framework for AI to Support Business Decision Making

Arxiv

0+阅读 · 4月27日

How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks

Arxiv

0+阅读 · 4月24日

Auditing and Controlling AI Agent Actions in Spreadsheets

Arxiv

0+阅读 · 4月22日

Cycle-Consistent Search: Question Reconstructability as a Proxy Reward for Search Agent Training

Arxiv

0+阅读 · 4月14日

EigentSearch-Q+: Enhancing Deep Research Agents with Structured Reasoning Tools

Arxiv

0+阅读 · 4月10日

Compute Allocation for Reasoning-Intensive Retrieval Agents

Arxiv

0+阅读 · 3月21日

Auditing Google's AI Overviews and Featured Snippets: A Case Study on Baby Care and Pregnancy

Arxiv

0+阅读 · 3月20日

An Auditable AI Agent Loop for Empirical Economics: A Case Study in Forecast Combination

Arxiv

0+阅读 · 3月20日

An Auditable AI Agent Loop for Empirical Economics: A Case Study in Forecast Combination

Arxiv

0+阅读 · 3月18日

A Framework for Studying AI Agent Behavior: Evidence from Consumer Choice Experiments

Arxiv

0+阅读 · 2月24日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员