We study mathematical discovery through the lens of neurosymbolic reasoning, where an AI agent powered by a large language model (LLM), coupled with symbolic computation tools, and human strategic direction, jointly produced a new result in combinatorial design theory. The main result of this human-AI collaboration is a tight lower bound on the imbalance of Latin squares for the notoriously difficult case $n \equiv 1 \pmod{3}$. We reconstruct the discovery process from detailed interaction logs spanning multiple sessions over several days and identify the distinct cognitive contributions of each component. The AI agent proved effective at uncovering hidden structure and generating hypotheses. The symbolic component consists of computer algebra, constraint solvers, and simulated annealing, which provides rigorous verification and exhaustive enumeration. Human steering supplied the critical research pivot that transformed a dead end into a productive inquiry. Our analysis reveals that multi-model deliberation among frontier LLMs proved reliable for criticism and error detection but unreliable for constructive claims. The resulting human-AI mathematical contribution, a tight lower bound of $4n(n{-}1)/9$, is achieved via a novel class of near-perfect permutations. The bound was formally verified in Lean 4. Our experiments show that neurosymbolic systems can indeed produce genuine discoveries in pure mathematics.


翻译:本研究从神经符号推理的视角探讨数学发现过程,其中由大型语言模型(LLM)驱动的智能体、符号计算工具与人类战略指导协同合作,在组合设计理论中取得了新成果。此次人机协作的核心成果是针对长期悬而未决的$n \equiv 1 \pmod{3}$情形,给出了拉丁方不平衡度的紧致下界。我们通过分析历时数日、跨越多个会话的详细交互日志,重构了发现过程并识别了各组成部分的认知贡献。智能体在揭示隐藏结构和生成假设方面表现出色;符号计算组件(包括计算机代数系统、约束求解器和模拟退火算法)提供了严格验证与穷举枚举;人类引导则通过关键的研究转向将死胡同转化为有效探索。分析表明,前沿LLM间的多模型审议机制在批判与错误检测方面可靠,但在建设性主张方面存在局限。最终通过构建新型近似完美置换类,获得了紧致下界$4n(n{-}1)/9$,该结果已在Lean 4中完成形式化验证。实验证明神经符号系统确实能够在纯数学领域实现实质性发现。

0
下载
关闭预览

相关内容

【EPFL博士论文】大型语言模型时代的协作式智能体
专知会员服务
32+阅读 · 2025年5月16日
多智能体协作机制:大语言模型综述
专知会员服务
68+阅读 · 2025年3月4日
大小模型协同的跨媒体智能研究
专知会员服务
30+阅读 · 2025年1月27日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
综述AI未来:神经科学启发的类脑计算
人工智能学家
11+阅读 · 2018年4月24日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员