Hybrid Concolic Testing with Large Language Models for Guided Path Exploration - 专知论文

会员服务 ·

0

路径 · 混合 · 覆盖 · 算法 · 软件 ·

Hybrid Concolic Testing with Large Language Models for Guided Path Exploration

翻译：混合符号执行测试与大型语言模型结合的引导式路径探索

Mahdi Eslamimehr

from arxiv, 12 pages, 2 Figures, 2 Tables

Concolic testing, a powerful hybrid software testing technique, has historically been plagued by fundamental limitations such as path explosion and the high cost of constraint solving, which hinder its practical application in large-scale, real-world software systems. This paper introduces a novel algorithmic framework that synergistically integrates concolic execution with Large Language Models (LLMs) to overcome these challenges. Our hybrid approach leverages the semantic reasoning capabilities of LLMs to guide path exploration, prioritize interesting execution paths, and assist in constraint solving. We formally define the system architecture and algorithms that constitute this new paradigm. Through a series of experiments on both synthetic and real-world Fintech applications, we demonstrate that our approach significantly outperforms traditional concolic testing, random testing, and genetic algorithm-based methods in terms of branch coverage, path coverage, and time-to-coverage. The results indicate that by combining the strengths of both concolic execution and LLMs, our method achieves a more efficient and effective exploration of the program state space, leading to improved bug detection capabilities.

翻译：符号执行测试作为一种强大的混合软件测试技术，长期受限于路径爆炸和约束求解成本高昂等根本性局限，阻碍了其在大规模实际软件系统中的实际应用。本文提出一种新颖的算法框架，通过协同整合符号执行与大型语言模型来克服这些挑战。我们的混合方法利用LLMs的语义推理能力来引导路径探索、优先处理有价值的执行路径，并辅助约束求解。我们形式化定义了构成这一新范式的系统架构与算法体系。通过对合成场景及实际金融科技应用的一系列实验，我们证明该方法在分支覆盖率、路径覆盖率和达到覆盖率所需时间等指标上，均显著优于传统符号执行测试、随机测试以及基于遗传算法的方法。实验结果表明，通过结合符号执行与LLMs的双重优势，我们的方法能够更高效、更有效地探索程序状态空间，从而提升缺陷检测能力。

0

相关内容

用于单元测试生成的大型语言模型：成果、挑战与未来方向

用于单元测试生成的大型语言模型：成果、挑战与未来方向

专知会员服务

17+阅读 · 2025年11月27日

大语言模型中的检索与结构化增强生成综述

大语言模型中的检索与结构化增强生成综述

专知会员服务

34+阅读 · 2025年9月17日

大语言模型中的隐式推理：综合综述

大语言模型中的隐式推理：综合综述

专知会员服务

33+阅读 · 2025年9月4日

结合知识增强的大型语言模型复杂问题求解综述

结合知识增强的大型语言模型复杂问题求解综述

专知会员服务

16+阅读 · 2025年5月7日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

38+阅读 · 2025年1月28日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

64+阅读 · 2024年4月23日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

【AAAI2024】大型语言模型是神经符号推理器

【AAAI2024】大型语言模型是神经符号推理器

专知会员服务

38+阅读 · 2024年1月18日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

专知

11+阅读 · 2022年11月3日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

综述：Image Caption 任务之语句多样性

综述：Image Caption 任务之语句多样性

PaperWeekly

22+阅读 · 2018年11月30日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

国内外混合式教学研究现状述评——基于混合式教学的分析框架

国内外混合式教学研究现状述评——基于混合式教学的分析框架

MOOC

53+阅读 · 2018年6月2日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

牵制控制框架下符号网络的群体行为研究

国家自然科学基金

2+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于混载合乘的预约式公交路径优化问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向二进制程序的静态结构化符号执行与动态组合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Mutation-Guided Unit Test Generation with a Large Language Model

Mutation-Guided Unit Test Generation with a Large Language Model

Arxiv

0+阅读 · 2月17日

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Arxiv

0+阅读 · 2月17日

PALM: Path-aware LLM-based Test Generation with Comprehension

Arxiv

0+阅读 · 2月11日

SAFuzz: Semantic-Guided Adaptive Fuzzing for LLM-Generated Code

Arxiv

0+阅读 · 2月11日

Distributed Hybrid Parallelism for Large Language Models: Comparative Study and System Design Guide

Arxiv

0+阅读 · 2月9日

Probing the Trajectories of Reasoning Traces in Large Language Models

Arxiv

0+阅读 · 1月30日

Hybrid Approach to Directed Fuzzing

Arxiv

0+阅读 · 1月30日

TestWeaver: Execution-aware, Feedback-driven Regression Testing Generation with Large Language Models

Arxiv

0+阅读 · 1月27日

A Comprehensive Study on Large Language Models for Mutation Testing

Arxiv

0+阅读 · 1月22日

S$^2$F: Principled Hybrid Testing With Fuzzing, Symbolic Execution, and Sampling

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

专知会员服务

1+阅读 · 今天12:37

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

专知会员服务

1+阅读 · 今天11:55

乌克兰战场背后的新武器

乌克兰战场背后的新武器

专知会员服务

4+阅读 · 今天4:55

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

9+阅读 · 今天2:29

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

专知会员服务

6+阅读 · 今天2:06

基于博弈论的陆军人机协同（长文报告）

基于博弈论的陆军人机协同（长文报告）

专知会员服务

7+阅读 · 今天1:54

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

专知会员服务

8+阅读 · 今天1:51

美国陆军航空兵：以愿景引领转型

美国陆军航空兵：以愿景引领转型

专知会员服务

6+阅读 · 今天1:38

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

专知会员服务

3+阅读 · 6月11日

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

专知会员服务

3+阅读 · 6月11日

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

专知会员服务

7+阅读 · 6月11日

《多域战场上反制小型无人机系统》150页

《多域战场上反制小型无人机系统》150页

专知会员服务

15+阅读 · 6月11日

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

专知会员服务

5+阅读 · 6月11日

战场人工智能：增强陆地作战能力的发现与要求

战场人工智能：增强陆地作战能力的发现与要求

专知会员服务

3+阅读 · 6月11日

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

专知会员服务

15+阅读 · 6月11日

相关VIP内容

用于单元测试生成的大型语言模型：成果、挑战与未来方向

用于单元测试生成的大型语言模型：成果、挑战与未来方向

专知会员服务

17+阅读 · 2025年11月27日

大语言模型中的检索与结构化增强生成综述

大语言模型中的检索与结构化增强生成综述

专知会员服务

34+阅读 · 2025年9月17日

大语言模型中的隐式推理：综合综述

大语言模型中的隐式推理：综合综述

专知会员服务

33+阅读 · 2025年9月4日

结合知识增强的大型语言模型复杂问题求解综述

结合知识增强的大型语言模型复杂问题求解综述

专知会员服务

16+阅读 · 2025年5月7日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

38+阅读 · 2025年1月28日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

64+阅读 · 2024年4月23日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

【AAAI2024】大型语言模型是神经符号推理器

【AAAI2024】大型语言模型是神经符号推理器

专知会员服务

38+阅读 · 2024年1月18日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

乌克兰战场背后的新武器

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

专知

11+阅读 · 2022年11月3日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

综述：Image Caption 任务之语句多样性

综述：Image Caption 任务之语句多样性

PaperWeekly

22+阅读 · 2018年11月30日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

国内外混合式教学研究现状述评——基于混合式教学的分析框架

国内外混合式教学研究现状述评——基于混合式教学的分析框架

MOOC

53+阅读 · 2018年6月2日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

Mutation-Guided Unit Test Generation with a Large Language Model

Mutation-Guided Unit Test Generation with a Large Language Model

Arxiv

0+阅读 · 2月17日

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Arxiv

0+阅读 · 2月17日

PALM: Path-aware LLM-based Test Generation with Comprehension

Arxiv

0+阅读 · 2月11日

SAFuzz: Semantic-Guided Adaptive Fuzzing for LLM-Generated Code

Arxiv

0+阅读 · 2月11日

Distributed Hybrid Parallelism for Large Language Models: Comparative Study and System Design Guide

Arxiv

0+阅读 · 2月9日

Probing the Trajectories of Reasoning Traces in Large Language Models

Arxiv

0+阅读 · 1月30日

Hybrid Approach to Directed Fuzzing

Arxiv

0+阅读 · 1月30日

TestWeaver: Execution-aware, Feedback-driven Regression Testing Generation with Large Language Models

Arxiv

0+阅读 · 1月27日

A Comprehensive Study on Large Language Models for Mutation Testing

Arxiv

0+阅读 · 1月22日

S$^2$F: Principled Hybrid Testing With Fuzzing, Symbolic Execution, and Sampling

Arxiv

0+阅读 · 1月15日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

牵制控制框架下符号网络的群体行为研究

国家自然科学基金

2+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于混载合乘的预约式公交路径优化问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向二进制程序的静态结构化符号执行与动态组合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员