本文为混合神经-本体语言理解框架做出了关键贡献,该框架是一个旨在利用深度学习和结构化本体将自然语言转换为形式逻辑的架构。其核心模块——一个语言到逻辑转换器——在一个基于SUMO本体并用SUO-KIF表达、通过大规模合成生成的句子-逻辑对数据集上进行了微调。为确保数据的高质量,一个两阶段的异常检测器通过统计推断和基于大语言模型的分类,过滤掉不合理或无意义的合成输入。此外,一个未登录词处理管道通过词形还原、占位符替换和翻译后SUO类型恢复,对未见过名词和动词进行预处理。这项工作通过将符号结构与神经适应性相结合,推进了语言到逻辑转换的技术水平,为更健壮的神经符号系统铺平了道路。
图1.1. HyNOLU系统的高层级架构。 分析人员的知识与文本源通过一个流水线进行处理,该流水线包括预处理、通过语言到逻辑转换实现的自动形式化,以及自动定理证明。一个训练子系统通过利用从词典和本体生成的语料库来支持语言到逻辑模型。