本论文旨在探讨以大型语言模型(LLMs)为代表的非结构化嵌入空间(unstructured embedding spaces),是否隐式编码了叙事理解所需的结构化知识。叙事创作(storytelling)是人类认知与社会交互的核心;通过探测人工智能系统对叙事结构的处理机制,不仅能揭示此类模型的能力边界,亦能审视人类智能的本质特征。
本研究循两条主要进路展开:其一,本文对现有研究领域进行了广泛综述,重新审视了关于语言模型中分布式表示(distributed representations)的基础性命题,并探讨了现代 Transformer 架构是否具备原生支持叙事理解任务的潜力。研究指出,当前架构在表征支撑叙事意义的深层结构方面仍存在显著局限。其二,本文考察了 LLMs 是否编码了人类叙事中所特有的结构化模式。通过针对经典文本(如《圣经》)中已证实的结构化模式设计一系列受控实验,本文验证了模型在以下方面的表现:(1) 识别交错对称(chiasmus)等内部修辞结构的能力;(2) 对跨文本并行关系的识别;(3) 对基于共享叙事框架而非表层形式(surface form)的文本段落的提取;(4) 基于深层概念结构而非词汇重叠(lexical overlap)的叙事类比推理。
综上所述,上述研究对 LLMs 所学习的非结构化嵌入空间能否支持结构化、层级化及类比推理进行了全面评估。研究结果阐明了当前语言模型的表征局限性,并指出未来有必要开发能够更显式地集成叙事结构的模型架构,从而推动认知建模以及依赖于鲁棒、可解释意义表示的下游任务的发展。