Grammar Repair with Examples and Tree Automata: Extended Version - 专知论文

会员服务 ·

0

示例 · 工具 · 算法 · 编程 · 设计 ·

Grammar Repair with Examples and Tree Automata: Extended Version

翻译：基于示例与树自动机的语法修复：扩展版本

Yunjeong Lee,Gokul Rajiv,Ilya Sergey

Context-free grammars (CFGs) are the de-facto formalism for declaratively describing concrete syntax for programming languages and generating parsers. One of the major challenges in defining a desired syntax is ruling out all possible ambiguities in the CFG productions that determine scoping rules as well as operator precedence and associativity. Practical tools for parser generation typically apply ad-hoc approaches for resolving such ambiguities, which might result in a parser's behavior that contradicts the intents of the language designer. In this work, we present a user-friendly approach to soundly repair grammars with ambiguities, which is inspired by the programming by example line of research in automated program synthesis. At the heart of our approach is the interpretation of both the initial CFG and additional examples that define the desired restrictions in precedence and associativity, as tree automata (TAs). The technical novelties of our approach are (1) a new TA learning algorithm that constructs an automaton based on the original grammar and examples that encode the user's preferred ways of resolving ambiguities all in a single TA, and (2) an efficient algorithm for TA intersection that utilises reachability analysis and optimizations that significantly reduce the size of the resulting automaton, which results in idiomatic CFGs amenable to parser generators. We have proven the soundness of the algorithms, and implemented our approach in a tool called Greta, demonstrating its effectiveness on a series of case studies.

翻译：上下文无关语法（CFG）是声明式描述编程语言具体语法并生成解析器的实际标准形式化工具。定义期望语法的主要挑战之一在于排除CFG产生式中所有可能的歧义，这些产生式决定了作用域规则以及运算符优先级和结合性。实用的解析器生成工具通常采用临时性方法解决此类歧义，可能导致解析器行为与语言设计者的意图相悖。本研究提出一种用户友好的方法，可对存在歧义的语法进行可靠修复，其灵感来源于自动化程序合成领域中的示例编程研究方向。我们方法的核心在于将初始CFG与定义优先级和结合性约束的附加示例统一解释为树自动机（TA）。本方法的技术创新在于：（1）提出新型TA学习算法，能够基于原始语法和编码用户偏好歧义解决方式的示例，在单一TA中构建自动机；（2）设计高效的TA交集算法，利用可达性分析和优化技术显著缩减结果自动机规模，从而生成适用于解析器生成器的惯用CFG。我们已证明算法的可靠性，并在名为Greta的工具中实现了该方法，通过系列案例研究验证了其有效性。

0

相关内容

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

专知会员服务

57+阅读 · 2024年1月24日

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

专知会员服务

21+阅读 · 2023年12月21日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

自然语言生成综述

专知会员服务

65+阅读 · 2021年5月29日

最新《文本简化》综述论文，26页pdf，A Survey on Text Simplification

最新《文本简化》综述论文，26页pdf，A Survey on Text Simplification

专知会员服务

15+阅读 · 2020年8月26日

【新书】自然语言处理表示学习技术，349页pdf，清华大学

【新书】自然语言处理表示学习技术，349页pdf，清华大学

专知会员服务

174+阅读 · 2020年7月11日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

专知

12+阅读 · 2019年10月13日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

强化学习与文本生成

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

Awesome-Chinese-NLP：中文自然语言处理相关资料

Awesome-Chinese-NLP：中文自然语言处理相关资料

AINLP

30+阅读 · 2019年2月17日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

【下载】Python自然语言处理实战书籍和代码《Natural Language Processing in Action》

【下载】Python自然语言处理实战书籍和代码《Natural Language Processing in Action》

专知

41+阅读 · 2017年12月10日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

面向二进制程序的静态结构化符号执行与动态组合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

稳定广义有限元法的研究与若干典型工程应用

国家自然科学基金

0+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

Exploring Language-Agnosticity in Function Vectors: A Case Study in Machine Translation

Arxiv

0+阅读 · 4月21日

Detecting and Explaining (In-)equivalence of Context-Free Grammars

Arxiv

0+阅读 · 4月8日

NaturalEdit: Code Modification through Direct Interaction with Adaptive Natural Language Representation

Arxiv

0+阅读 · 4月2日

ExVerus: Verus Proof Repair via Counterexample Reasoning

Arxiv

0+阅读 · 3月30日

Mixing Visual and Textual Code

Arxiv

0+阅读 · 3月27日

Autoencoding-Free Context Compression for LLMs via Contextual Semantic Anchors

Arxiv

0+阅读 · 3月11日

PleaSQLarify: Visual Pragmatic Repair for Natural Language Database Querying

Arxiv

0+阅读 · 3月2日

OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report

Arxiv

0+阅读 · 2月23日

Counting trees: A treebank-driven exploration of syntactic variation in speech and writing across languages

Arxiv

0+阅读 · 2月23日

Exploring Generalizable Automated Program Repair with Large Language Models

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

4+阅读 · 今天15:21

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

0+阅读 · 今天15:12

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

2+阅读 · 今天15:06

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

4+阅读 · 今天14:55

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

9+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

7+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

9+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

6+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

9+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

9+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

5+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

3+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

7+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

5+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

6+阅读 · 7月17日

相关VIP内容

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

专知会员服务

57+阅读 · 2024年1月24日

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

专知会员服务

21+阅读 · 2023年12月21日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

自然语言生成综述

专知会员服务

65+阅读 · 2021年5月29日

最新《文本简化》综述论文，26页pdf，A Survey on Text Simplification

最新《文本简化》综述论文，26页pdf，A Survey on Text Simplification

专知会员服务

15+阅读 · 2020年8月26日

【新书】自然语言处理表示学习技术，349页pdf，清华大学

【新书】自然语言处理表示学习技术，349页pdf，清华大学

专知会员服务

174+阅读 · 2020年7月11日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

专知

12+阅读 · 2019年10月13日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

强化学习与文本生成

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

Awesome-Chinese-NLP：中文自然语言处理相关资料

Awesome-Chinese-NLP：中文自然语言处理相关资料

AINLP

30+阅读 · 2019年2月17日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

【下载】Python自然语言处理实战书籍和代码《Natural Language Processing in Action》

【下载】Python自然语言处理实战书籍和代码《Natural Language Processing in Action》

专知

41+阅读 · 2017年12月10日

相关论文

Exploring Language-Agnosticity in Function Vectors: A Case Study in Machine Translation

Arxiv

0+阅读 · 4月21日

Detecting and Explaining (In-)equivalence of Context-Free Grammars

Arxiv

0+阅读 · 4月8日

NaturalEdit: Code Modification through Direct Interaction with Adaptive Natural Language Representation

Arxiv

0+阅读 · 4月2日

ExVerus: Verus Proof Repair via Counterexample Reasoning

Arxiv

0+阅读 · 3月30日

Mixing Visual and Textual Code

Arxiv

0+阅读 · 3月27日

Autoencoding-Free Context Compression for LLMs via Contextual Semantic Anchors

Arxiv

0+阅读 · 3月11日

PleaSQLarify: Visual Pragmatic Repair for Natural Language Database Querying

Arxiv

0+阅读 · 3月2日

OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report

Arxiv

0+阅读 · 2月23日

Counting trees: A treebank-driven exploration of syntactic variation in speech and writing across languages

Arxiv

0+阅读 · 2月23日

Exploring Generalizable Automated Program Repair with Large Language Models

Arxiv

0+阅读 · 2月20日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

面向二进制程序的静态结构化符号执行与动态组合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

稳定广义有限元法的研究与若干典型工程应用

国家自然科学基金

0+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员