代码与序列化AST输入在基于LLM的代码摘要生成中的对比：一项实证研究 (Code vs Serialized AST Inputs for LLM-Based Code Summarization: An Empirical Study) - 专知论文

会员服务 ·

0

代码 · 序列 · 序列化 · 实证研究 · 大语言模型 ·

Code vs Serialized AST Inputs for LLM-Based Code Summarization: An Empirical Study

翻译：代码与序列化AST输入在基于LLM的代码摘要生成中的对比：一项实证研究

Shijia Dong,Haoruo Zhao,Paul Harvey

from arxiv, Accepted at the 3rd International Workshop on Large Language Models for Code (LLM4Code 2026), co-located with ICSE 2026

Summarizing source code into natural language descriptions (code summarization) helps developers better understand program functionality and reduce the burden of software maintenance. Abstract Syntax Trees (ASTs), as opposed to source code, have been shown to improve summarization quality in traditional encoder-decoder-based code summarization models. However, most large language model (LLM)-based code summarization methods rely on raw code or only incorporate partial AST signals, meaning that the potential of complete AST representation has not been fully explored for LLMs. This paper presents AST(NIT), an AST augmentation and serialization method that preserves lexical details and encodes structural information into LLM-compatible sequences. Experiments with the LLaMA-3.1-8B model on the CodeXGLUE Python dataset show that the proposed serialized ASTs reduce the length of LLM inputs, require shorter training times, and achieve summarization quality comparable to existing approaches.

翻译：将源代码概括为自然语言描述（代码摘要）有助于开发者更好地理解程序功能并减轻软件维护负担。与传统基于编码器-解码器的代码摘要模型相比，抽象语法树（AST）已被证明能提升摘要质量。然而，当前大多数基于大语言模型（LLM）的代码摘要方法仍依赖原始代码或仅融入部分AST特征，这意味着完整的AST表征在LLM中的潜力尚未得到充分探索。本文提出AST(NIT)——一种保留词法细节并将结构信息编码为LLM兼容序列的AST增强与序列化方法。基于LLaMA-3.1-8B模型在CodeXGLUE Python数据集上的实验表明，所提出的序列化AST能缩短LLM输入长度，减少训练时间，同时获得与现有方法相当的摘要质量。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

专知会员服务

24+阅读 · 2025年12月25日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

专知会员服务

38+阅读 · 2025年1月5日

《大型语言模型 (LLM) 对比研究》美海军最新报告

《大型语言模型 (LLM) 对比研究》美海军最新报告

专知会员服务

85+阅读 · 2024年6月28日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

69+阅读 · 2024年6月4日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

专知会员服务

67+阅读 · 2023年12月7日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

基于句子嵌入的无监督文本摘要（附代码实现）

基于句子嵌入的无监督文本摘要（附代码实现）

PaperWeekly

23+阅读 · 2020年2月4日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

独家 | 基于TextRank算法的文本摘要（附Python代码）

独家 | 基于TextRank算法的文本摘要（附Python代码）

数据派THU

14+阅读 · 2018年12月21日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

【Keras教程】用Encoder-Decoder模型自动撰写文本摘要

【Keras教程】用Encoder-Decoder模型自动撰写文本摘要

专知

13+阅读 · 2017年12月11日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis

Arxiv

0+阅读 · 3月9日

SOSecure: Safer Code Generation with RAG and StackOverflow Discussions

Arxiv

0+阅读 · 3月2日

Examining LLMs Ability to Summarize Code Through Mutation-Analysis

Arxiv

0+阅读 · 2月19日

Algorithm-Based Pipeline for Reliable and Intent-Preserving Code Translation with LLMs

Arxiv

0+阅读 · 2月18日

CodeGlance: Understanding Code Reasoning Challenges in LLMs through Multi-Dimensional Feature Analysis

Arxiv

0+阅读 · 2月15日

A Survey of Code Review Benchmarks and Evaluation Practices in Pre-LLM and LLM Era

Arxiv

0+阅读 · 2月13日

Let LLMs Speak Embedding Languages: Generative Text Embeddings via Iterative Contrastive Refinement

Arxiv

0+阅读 · 2月6日

CodeCircuit: Toward Inferring LLM-Generated Code Correctness via Attribution Graphs

Arxiv

0+阅读 · 2月6日

AI-Generated Code Is Not Reproducible (Yet): An Empirical Study of Dependency Gaps in LLM-Based Coding Agents

Arxiv

0+阅读 · 2月3日

Precision in Practice: Knowledge Guided Code Summarizing Grounded in Industrial Expectations

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

大语言模型

最新内容

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

0+阅读 · 14分钟前

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

5+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

2+阅读 · 今天1:32

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

6+阅读 · 4月16日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

7+阅读 · 4月16日

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

3+阅读 · 4月16日

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

9+阅读 · 4月16日

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

3+阅读 · 4月16日

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

3+阅读 · 4月16日

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

3+阅读 · 4月16日

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

3+阅读 · 4月16日

《基于强化学习的反无人机蜂群拦截优先级排序》

《基于强化学习的反无人机蜂群拦截优先级排序》

专知会员服务

10+阅读 · 4月16日

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

专知会员服务

5+阅读 · 4月16日

美军2026条令《指挥官装甲装备维护技能测试计划》

美军2026条令《指挥官装甲装备维护技能测试计划》

专知会员服务

7+阅读 · 4月16日

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

专知会员服务

8+阅读 · 4月16日

相关VIP内容

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

专知会员服务

24+阅读 · 2025年12月25日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

专知会员服务

38+阅读 · 2025年1月5日

《大型语言模型 (LLM) 对比研究》美海军最新报告

《大型语言模型 (LLM) 对比研究》美海军最新报告

专知会员服务

85+阅读 · 2024年6月28日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

69+阅读 · 2024年6月4日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

专知会员服务

67+阅读 · 2023年12月7日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

热门VIP内容

开通专知VIP会员享更多权益服务

美空军条令（2026）：外国对内防御

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

（中文）认知战的本体论基础（2026报告）

美国与以色列如何在攻击伊朗中使用人工智能

相关资讯

基于句子嵌入的无监督文本摘要（附代码实现）

基于句子嵌入的无监督文本摘要（附代码实现）

PaperWeekly

23+阅读 · 2020年2月4日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

独家 | 基于TextRank算法的文本摘要（附Python代码）

独家 | 基于TextRank算法的文本摘要（附Python代码）

数据派THU

14+阅读 · 2018年12月21日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

【Keras教程】用Encoder-Decoder模型自动撰写文本摘要

【Keras教程】用Encoder-Decoder模型自动撰写文本摘要

专知

13+阅读 · 2017年12月11日

相关论文

Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis

Arxiv

0+阅读 · 3月9日

SOSecure: Safer Code Generation with RAG and StackOverflow Discussions

Arxiv

0+阅读 · 3月2日

Examining LLMs Ability to Summarize Code Through Mutation-Analysis

Arxiv

0+阅读 · 2月19日

Algorithm-Based Pipeline for Reliable and Intent-Preserving Code Translation with LLMs

Arxiv

0+阅读 · 2月18日

CodeGlance: Understanding Code Reasoning Challenges in LLMs through Multi-Dimensional Feature Analysis

Arxiv

0+阅读 · 2月15日

A Survey of Code Review Benchmarks and Evaluation Practices in Pre-LLM and LLM Era

Arxiv

0+阅读 · 2月13日

Let LLMs Speak Embedding Languages: Generative Text Embeddings via Iterative Contrastive Refinement

Arxiv

0+阅读 · 2月6日

CodeCircuit: Toward Inferring LLM-Generated Code Correctness via Attribution Graphs

Arxiv

0+阅读 · 2月6日

AI-Generated Code Is Not Reproducible (Yet): An Empirical Study of Dependency Gaps in LLM-Based Coding Agents

Arxiv

0+阅读 · 2月3日

Precision in Practice: Knowledge Guided Code Summarizing Grounded in Industrial Expectations

Arxiv

0+阅读 · 2月3日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员