Beyond Fine-Tuning: Robust Food Entity Linking under Ontology Drift with FoodOntoRAG - 专知论文

会员服务 ·

0

本体 · 实体 · 微调 · 实体链接 · 鲁棒 ·

Beyond Fine-Tuning: Robust Food Entity Linking under Ontology Drift with FoodOntoRAG

翻译：超越微调：基于FoodOntoRAG在本体漂移下的鲁棒性食品实体链接

Jan Drole,Ana Gjorgjevikj,Barbara Korouši'c Seljak,Tome Eftimov

from arxiv, Preprint

Standardizing food terms from product labels and menus into ontology concepts is a prerequisite for trustworthy dietary assessment and safety reporting. The dominant approach to Named Entity Linking (NEL) in the food and nutrition domains fine-tunes Large Language Models (LLMs) on task-specific corpora. Although effective, fine-tuning incurs substantial computational cost, ties models to a particular ontology snapshot (i.e., version), and degrades under ontology drift. This paper presents FoodOntoRAG, a model- and ontology-agnostic pipeline that performs few-shot NEL by retrieving candidate entities from domain ontologies and conditioning an LLM on structured evidence (food labels, synonyms, definitions, and relations). A hybrid lexical--semantic retriever enumerates candidates; a selector agent chooses a best match with rationale; a separate scorer agent calibrates confidence; and, when confidence falls below a threshold, a synonym generator agent proposes reformulations to re-enter the loop. The pipeline approaches state-of-the-art accuracy while revealing gaps and inconsistencies in existing annotations. The design avoids fine-tuning, improves robustness to ontology evolution, and yields interpretable decisions through grounded justifications.

翻译：将产品标签和菜单中的食品术语标准化为本体概念，是进行可信膳食评估与安全报告的前提。食品与营养领域中命名实体链接的主流方法是在特定任务语料上对大语言模型进行微调。尽管有效，微调会带来高昂的计算成本，将模型绑定至特定的本体快照（即版本），且在本体漂移下性能会下降。本文提出FoodOntoRAG，一个模型与本体无关的流程，通过从领域本体中检索候选实体，并基于结构化证据（食品标签、同义词、定义及关系）对大语言模型进行条件化，实现少样本命名实体链接。一个混合词汇-语义检索器枚举候选实体；一个选择器智能体基于推理选择最佳匹配；一个独立的评分器智能体校准置信度；当置信度低于阈值时，一个同义词生成器智能体提出重新表述以重新进入循环。该流程在接近最先进准确率的同时，揭示了现有标注中的差距与不一致性。其设计避免了微调，提升了对本体演化的鲁棒性，并通过基于证据的论证产生了可解释的决策。

0

相关内容

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

专知会员服务

9+阅读 · 2025年6月3日

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

专知会员服务

56+阅读 · 2024年11月17日

基于深度神经网络的实体链接研究综述

基于深度神经网络的实体链接研究综述

专知会员服务

15+阅读 · 2024年9月8日

Patterns (Cell Press) 2022 | 食品知识图谱在食品科学和工业中的应用

Patterns (Cell Press) 2022 | 食品知识图谱在食品科学和工业中的应用

专知会员服务

15+阅读 · 2022年5月25日

AI如何用于食品？中科院计算所「食品图像识别」最新2022研究综述，阐述食品识别方法与应用

AI如何用于食品？中科院计算所「食品图像识别」最新2022研究综述，阐述食品识别方法与应用

专知会员服务

29+阅读 · 2022年4月9日

食品图像识别方法综述

食品图像识别方法综述

专知会员服务

21+阅读 · 2022年3月21日

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

专知会员服务

37+阅读 · 2020年9月6日

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

专知会员服务

21+阅读 · 2020年4月5日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

【报告推荐】线上食品推荐中的数据分析（Computational Data Analytics on the Web for Better Food Decision Making）

【报告推荐】线上食品推荐中的数据分析（Computational Data Analytics on the Web for Better Food Decision Making）

专知会员服务

16+阅读 · 2019年10月2日

医疗健康领域的短文本解析探索----文本纠错

医疗健康领域的短文本解析探索----文本纠错

深度学习自然语言处理

10+阅读 · 2020年8月5日

【论文】本体匹配实体对齐知识融合入门论文推荐

【论文】本体匹配实体对齐知识融合入门论文推荐

深度学习自然语言处理

25+阅读 · 2020年3月8日

技术动态 | 知识图谱上的实体链接

技术动态 | 知识图谱上的实体链接

开放知识图谱

69+阅读 · 2019年9月8日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

本体：一文读懂领域本体构建

本体：一文读懂领域本体构建

AINLP

40+阅读 · 2019年2月27日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

【论文推荐】最新六篇命名实体识别相关论文—跨专业医学、阿拉伯命名实体、中国临床、深度多任务学习、多模态、图卷积网络

【论文推荐】最新六篇命名实体识别相关论文—跨专业医学、阿拉伯命名实体、中国临床、深度多任务学习、多模态、图卷积网络

专知

54+阅读 · 2018年5月21日

SLA 99.99%以上！饿了么实时计算平台3年演进历程

SLA 99.99%以上！饿了么实时计算平台3年演进历程

51CTO博客

11+阅读 · 2018年4月10日

科普 | 动态本体简介

科普 | 动态本体简介

开放知识图谱

14+阅读 · 2017年11月11日

基于进化算法的大规模本体匹配问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于组学方法研究两种营养功能迥异淡水鱼的分子学基础

国家自然科学基金

0+阅读 · 2015年12月31日

面向食品安全的霉菌毒素蓝光光盘检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

食源miRNA的存在、变化及其对靶基因的网络调控机制

国家自然科学基金

1+阅读 · 2014年12月31日

基于纳米孔膜的微纳机电系统及其在食源性病原微生物检测上的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于供应链的中国食品追溯体系激励与监管机制研究

国家自然科学基金

13+阅读 · 2008年12月31日

Embedding Ontologies via Incorporating Extensional and Intensional Knowledge

Arxiv

0+阅读 · 3月9日

Agent-OM: Leveraging LLM Agents for Ontology Matching

Arxiv

0+阅读 · 3月8日

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

Arxiv

0+阅读 · 3月5日

NutriBench: A Dataset for Evaluating Large Language Models on Nutrition Estimation from Meal Descriptions

Arxiv

0+阅读 · 3月3日

Agent-OM: Leveraging LLM Agents for Ontology Matching

Arxiv

0+阅读 · 2月14日

An Ecosystem for Ontology Interoperability

Arxiv

0+阅读 · 2月13日

Beyond Static Alignment: Hierarchical Policy Control for LLM Safety via Risk-Aware Chain-of-Thought

Arxiv

0+阅读 · 2月6日

Beyond Prompting: Efficient and Robust Contextual Biasing for Speech LLMs via Logit-Space Integration (LOGIC)

Arxiv

0+阅读 · 2月4日

Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition

Arxiv

0+阅读 · 2月4日

Ontology-to-tools compilation for executable semantic constraint enforcement in LLM agents

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

0+阅读 · 今天15:52

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

2+阅读 · 今天15:32

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

1+阅读 · 今天15:24

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

0+阅读 · 今天15:15

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

2+阅读 · 今天15:11

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

0+阅读 · 今天14:43

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

0+阅读 · 今天14:40

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

12+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

11+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

8+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

14+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

专知会员服务

9+阅读 · 2025年6月3日

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

专知会员服务

56+阅读 · 2024年11月17日

基于深度神经网络的实体链接研究综述

基于深度神经网络的实体链接研究综述

专知会员服务

15+阅读 · 2024年9月8日

Patterns (Cell Press) 2022 | 食品知识图谱在食品科学和工业中的应用

Patterns (Cell Press) 2022 | 食品知识图谱在食品科学和工业中的应用

专知会员服务

15+阅读 · 2022年5月25日

AI如何用于食品？中科院计算所「食品图像识别」最新2022研究综述，阐述食品识别方法与应用

AI如何用于食品？中科院计算所「食品图像识别」最新2022研究综述，阐述食品识别方法与应用

专知会员服务

29+阅读 · 2022年4月9日

食品图像识别方法综述

食品图像识别方法综述

专知会员服务

21+阅读 · 2022年3月21日

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

专知会员服务

37+阅读 · 2020年9月6日

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

专知会员服务

21+阅读 · 2020年4月5日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

【报告推荐】线上食品推荐中的数据分析（Computational Data Analytics on the Web for Better Food Decision Making）

【报告推荐】线上食品推荐中的数据分析（Computational Data Analytics on the Web for Better Food Decision Making）

专知会员服务

16+阅读 · 2019年10月2日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

医疗健康领域的短文本解析探索----文本纠错

医疗健康领域的短文本解析探索----文本纠错

深度学习自然语言处理

10+阅读 · 2020年8月5日

【论文】本体匹配实体对齐知识融合入门论文推荐

【论文】本体匹配实体对齐知识融合入门论文推荐

深度学习自然语言处理

25+阅读 · 2020年3月8日

技术动态 | 知识图谱上的实体链接

技术动态 | 知识图谱上的实体链接

开放知识图谱

69+阅读 · 2019年9月8日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

本体：一文读懂领域本体构建

本体：一文读懂领域本体构建

AINLP

40+阅读 · 2019年2月27日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

【论文推荐】最新六篇命名实体识别相关论文—跨专业医学、阿拉伯命名实体、中国临床、深度多任务学习、多模态、图卷积网络

【论文推荐】最新六篇命名实体识别相关论文—跨专业医学、阿拉伯命名实体、中国临床、深度多任务学习、多模态、图卷积网络

专知

54+阅读 · 2018年5月21日

SLA 99.99%以上！饿了么实时计算平台3年演进历程

SLA 99.99%以上！饿了么实时计算平台3年演进历程

51CTO博客

11+阅读 · 2018年4月10日

科普 | 动态本体简介

科普 | 动态本体简介

开放知识图谱

14+阅读 · 2017年11月11日

相关论文

Embedding Ontologies via Incorporating Extensional and Intensional Knowledge

Arxiv

0+阅读 · 3月9日

Agent-OM: Leveraging LLM Agents for Ontology Matching

Arxiv

0+阅读 · 3月8日

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

Arxiv

0+阅读 · 3月5日

NutriBench: A Dataset for Evaluating Large Language Models on Nutrition Estimation from Meal Descriptions

Arxiv

0+阅读 · 3月3日

Agent-OM: Leveraging LLM Agents for Ontology Matching

Arxiv

0+阅读 · 2月14日

An Ecosystem for Ontology Interoperability

Arxiv

0+阅读 · 2月13日

Beyond Static Alignment: Hierarchical Policy Control for LLM Safety via Risk-Aware Chain-of-Thought

Arxiv

0+阅读 · 2月6日

Beyond Prompting: Efficient and Robust Contextual Biasing for Speech LLMs via Logit-Space Integration (LOGIC)

Arxiv

0+阅读 · 2月4日

Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition

Arxiv

0+阅读 · 2月4日

Ontology-to-tools compilation for executable semantic constraint enforcement in LLM agents

Arxiv

0+阅读 · 2月3日

相关基金

基于进化算法的大规模本体匹配问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于组学方法研究两种营养功能迥异淡水鱼的分子学基础

国家自然科学基金

0+阅读 · 2015年12月31日

面向食品安全的霉菌毒素蓝光光盘检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

食源miRNA的存在、变化及其对靶基因的网络调控机制

国家自然科学基金

1+阅读 · 2014年12月31日

基于纳米孔膜的微纳机电系统及其在食源性病原微生物检测上的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于供应链的中国食品追溯体系激励与监管机制研究

国家自然科学基金

13+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员