Standardizing food terms from product labels and menus into ontology concepts is a prerequisite for trustworthy dietary assessment and safety reporting. The dominant approach to Named Entity Linking (NEL) in the food and nutrition domains fine-tunes Large Language Models (LLMs) on task-specific corpora. Although effective, fine-tuning incurs substantial computational cost, ties models to a particular ontology snapshot (i.e., version), and degrades under ontology drift. This paper presents FoodOntoRAG, a model- and ontology-agnostic pipeline that performs few-shot NEL by retrieving candidate entities from domain ontologies and conditioning an LLM on structured evidence (food labels, synonyms, definitions, and relations). A hybrid lexical--semantic retriever enumerates candidates; a selector agent chooses a best match with rationale; a separate scorer agent calibrates confidence; and, when confidence falls below a threshold, a synonym generator agent proposes reformulations to re-enter the loop. The pipeline approaches state-of-the-art accuracy while revealing gaps and inconsistencies in existing annotations. The design avoids fine-tuning, improves robustness to ontology evolution, and yields interpretable decisions through grounded justifications.


翻译:将产品标签和菜单中的食品术语标准化为本体概念,是进行可信膳食评估与安全报告的前提。食品与营养领域中命名实体链接的主流方法是在特定任务语料上对大语言模型进行微调。尽管有效,微调会带来高昂的计算成本,将模型绑定至特定的本体快照(即版本),且在本体漂移下性能会下降。本文提出FoodOntoRAG,一个模型与本体无关的流程,通过从领域本体中检索候选实体,并基于结构化证据(食品标签、同义词、定义及关系)对大语言模型进行条件化,实现少样本命名实体链接。一个混合词汇-语义检索器枚举候选实体;一个选择器智能体基于推理选择最佳匹配;一个独立的评分器智能体校准置信度;当置信度低于阈值时,一个同义词生成器智能体提出重新表述以重新进入循环。该流程在接近最先进准确率的同时,揭示了现有标注中的差距与不一致性。其设计避免了微调,提升了对本体演化的鲁棒性,并通过基于证据的论证产生了可解释的决策。

0
下载
关闭预览

相关内容

基于深度神经网络的实体链接研究综述
专知会员服务
15+阅读 · 2024年9月8日
食品图像识别方法综述
专知会员服务
21+阅读 · 2022年3月21日
医疗健康领域的短文本解析探索----文本纠错
深度学习自然语言处理
10+阅读 · 2020年8月5日
【论文】本体匹配实体对齐知识融合入门论文推荐
深度学习自然语言处理
25+阅读 · 2020年3月8日
技术动态 | 知识图谱上的实体链接
开放知识图谱
69+阅读 · 2019年9月8日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
本体:一文读懂领域本体构建
AINLP
40+阅读 · 2019年2月27日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
科普 | 动态本体简介
开放知识图谱
14+阅读 · 2017年11月11日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月13日
VIP会员
最新内容
ICML 2026 | Sheaf-ADMM:用可微优化学习多智能体协调
专知会员服务
1+阅读 · 50分钟前
综述 | OPSD:大语言模型的在线策略自蒸馏
专知会员服务
1+阅读 · 54分钟前
算法化战争:人工智能时代的新范式(万字长文)
帕兰蒂尔Maven:军事人工智能的新纪元
专知会员服务
2+阅读 · 今天14:00
超越网格:作战环境对炮兵的影响
专知会员服务
3+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
6+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
7+阅读 · 5月30日
相关VIP内容
基于深度神经网络的实体链接研究综述
专知会员服务
15+阅读 · 2024年9月8日
食品图像识别方法综述
专知会员服务
21+阅读 · 2022年3月21日
相关资讯
医疗健康领域的短文本解析探索----文本纠错
深度学习自然语言处理
10+阅读 · 2020年8月5日
【论文】本体匹配实体对齐知识融合入门论文推荐
深度学习自然语言处理
25+阅读 · 2020年3月8日
技术动态 | 知识图谱上的实体链接
开放知识图谱
69+阅读 · 2019年9月8日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
本体:一文读懂领域本体构建
AINLP
40+阅读 · 2019年2月27日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
科普 | 动态本体简介
开放知识图谱
14+阅读 · 2017年11月11日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员