Meaning in human language is relational, context dependent, and emergent, arising from dynamic systems of signs rather than fixed word-concept mappings. In computational settings, this semiotic and interpretive complexity complicates the generation and evaluation of meaning. This article proposes an interdisciplinary framework for studying meaning in large language model (LLM) generated language by integrating semiotics and hermeneutics with qualitative research methods. We review prior scholarship on meaning and machines, examining how linguistic signs are transformed into vectorized representations in static and contextualized embedding models, and identify gaps between statistical approximation and human interpretive meaning. We then introduce the Inductive Conceptual Rating (ICR) metric, a qualitative evaluation approach grounded in inductive content analysis and reflexive thematic analysis, designed to assess semantic accuracy and meaning alignment in LLM-outputs beyond lexical similarity metrics. We apply ICR in an empirical comparison of LLM generated and human generated thematic summaries across five datasets (N = 50 to 800). While LLMs achieve high linguistic similarity, they underperform on semantic accuracy, particularly in capturing contextually grounded meanings. Performance improves with larger datasets but remains variable across models, potentially reflecting differences in the frequency and coherence of recurring concepts and meanings. We conclude by arguing for evaluation frameworks that leverage systematic qualitative interpretation practices when assessing meaning in LLM-generated outputs from reference texts.


翻译:人类语言中的意义是关系性的、依赖于语境的、并涌现的,它源于动态的符号系统,而非固定的词语-概念映射。在计算环境中,这种符号学与诠释的复杂性使得意义的生成与评估变得困难。本文提出一个跨学科框架,通过将符号学、诠释学与定性研究方法相结合,来研究大型语言模型(LLM)生成语言中的意义。我们回顾了先前关于意义与机器的学术研究,考察了语言符号如何在静态和情境化嵌入模型中被转化为向量化表示,并指出了统计近似与人类诠释意义之间的差距。接着,我们引入了归纳概念评分(ICR)度量,这是一种基于归纳内容分析和反思性主题分析的定性评估方法,旨在超越词汇相似度度量,评估LLM输出中的语义准确性和意义对齐度。我们在五个数据集(N = 50 至 800)上,对LLM生成和人类生成的主题摘要进行了实证比较,应用了ICR。虽然LLM在语言相似性上取得了高分,但在语义准确性方面表现不佳,尤其是在捕捉基于语境的意义方面。性能随数据集增大而提升,但在不同模型间仍存在差异,这可能反映了重复出现的概念和意义在频率与连贯性上的不同。最后,我们主张在评估LLM根据参考文本生成的输出中的意义时,应采用利用系统性定性诠释实践的评估框架。

0
下载
关闭预览

相关内容

符号学广义上是研究符号传意的人文科学,当中涵盖所有涉文字符、讯号符、密码、古文明记号、 手语的科学。
【ICML2024】理解大型语言模型在规划中的作用,138页pdf
专知会员服务
49+阅读 · 2024年7月24日
【NAACL2024】大语言模型时代的可解释性,240页ppt
专知会员服务
45+阅读 · 2024年6月17日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
最新《可解释人工智能》概述,50页ppt
专知
12+阅读 · 2021年3月17日
【SCIR笔记】文档级事件抽取简述
深度学习自然语言处理
17+阅读 · 2020年7月30日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
本体:一文读懂领域本体构建
AINLP
40+阅读 · 2019年2月27日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
内省扩散语言模型
专知会员服务
1+阅读 · 51分钟前
国外反无人机系统与技术动态
专知会员服务
2+阅读 · 今天12:48
大规模作战行动中的战术作战评估(研究论文)
专知会员服务
3+阅读 · 今天12:21
未来的海战无人自主系统
专知会员服务
2+阅读 · 今天12:05
美军多域作战现状分析:战略、概念还是幻想?
专知会员服务
3+阅读 · 今天11:52
无人机与反无人机系统(书籍)
专知会员服务
15+阅读 · 今天6:45
美陆军2026条令:安全与机动支援
专知会员服务
5+阅读 · 今天5:49
相关VIP内容
【ICML2024】理解大型语言模型在规划中的作用,138页pdf
专知会员服务
49+阅读 · 2024年7月24日
【NAACL2024】大语言模型时代的可解释性,240页ppt
专知会员服务
45+阅读 · 2024年6月17日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员