Large Language Models (LLMs) provide flexible natural language processing capabilities, while knowledge graphs (KGs) offer explicit and structured knowledge. Integrating these two in a complementary manner enables the development of reliable and verifiable AI systems. In particular, knowledge graph question answering (KGQA) has attracted attention as a means to reduce LLM hallucinations and to leverage knowledge beyond the training data. However, existing KGQA benchmark datasets are biased toward encyclopedic knowledge, limited to a single modality, and lack fine-grained spatiotemporal data, which limits their applicability to real-world scenarios targeted by Embodied AI. We introduce HOME-KGQA, a novel KGQA benchmark dataset built on a multimodal KG of daily household activities. HOME-KGQA consists of complex, multi-hop natural language questions paired with graph database query languages. Compared to existing benchmarks, it includes more challenging questions that involve multi-level spatiotemporal reasoning, multimodal grounding, and aggregate functions. Experimental results show that the LLM-based KGQA methods fail to achieve performance comparable to that on existing datasets when evaluated on HOME-KGQA. This highlights significant challenges that should be addressed for the real-world deployment of KGQA systems. Our dataset is available at https://github.com/aistairc/home-kgqa


翻译:大语言模型(LLMs)提供了灵活的自然语言处理能力,而知识图谱(KGs)则提供了明确且结构化的知识。将两者以互补方式整合,能够开发出可靠且可验证的人工智能系统。特别是,知识图谱问答(KGQA)作为减少LLM幻觉并利用训练数据之外知识的手段,已引起广泛关注。然而,现有KGQA基准数据集偏向于百科全书式知识,局限于单一模态,且缺乏细粒度的时空数据,这限制了其在具身智能所针对的真实场景中的适用性。我们提出了HOME-KGQA,这是一个基于家庭日常活动多模态知识图谱构建的新型KGQA基准数据集。HOME-KGQA包含复杂的、多跳自然语言问题及其对应的图数据库查询语言。与现有基准相比,它包含了涉及多层次时空推理、多模态对齐和聚合函数等更具挑战性的问题。实验结果表明,在HOME-KGQA上评估时,基于LLM的KGQA方法未能达到在现有数据集上的可比性能。这凸显了在KGQA系统实际部署中应解决的重大挑战。我们的数据集发布于https://github.com/aistairc/home-kgqa。

0
下载
关闭预览

相关内容

通过学习、实践或探索所获得的认识、判断或技能。
【新书】《知识图谱与大语言模型的协同应用》,544页pdf
专知会员服务
91+阅读 · 2025年10月29日
大型语言模型(LLM)赋能的知识图谱构建:综述
专知会员服务
56+阅读 · 2025年10月24日
大语言模型遇上知识图谱:问答系统中的融合与机遇
专知会员服务
30+阅读 · 2025年5月30日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
大语言模型增强知识表示学习综述
专知会员服务
70+阅读 · 2024年7月2日
KG-Agent:面向KG复杂推理的高效自治代理框架
专知会员服务
35+阅读 · 2024年6月1日
知识图谱KG在NLP的十年研究进展综述
专知会员服务
135+阅读 · 2022年10月4日
知识图谱KG在NLP的十年研究进展综述
专知
17+阅读 · 2022年10月4日
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
技术动态 | TechKG:一个面向中文学术领域的大型知识图谱
开放知识图谱
25+阅读 · 2018年12月20日
领域应用 | NLP 和知识图谱:金融科技领域的“双子星”
开放知识图谱
21+阅读 · 2018年8月12日
论文动态 | 基于知识图谱的问答系统关键技术研究 #02
开放知识图谱
10+阅读 · 2017年8月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
25+阅读 · 2023年6月23日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【新书】《知识图谱与大语言模型的协同应用》,544页pdf
专知会员服务
91+阅读 · 2025年10月29日
大型语言模型(LLM)赋能的知识图谱构建:综述
专知会员服务
56+阅读 · 2025年10月24日
大语言模型遇上知识图谱:问答系统中的融合与机遇
专知会员服务
30+阅读 · 2025年5月30日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
大语言模型增强知识表示学习综述
专知会员服务
70+阅读 · 2024年7月2日
KG-Agent:面向KG复杂推理的高效自治代理框架
专知会员服务
35+阅读 · 2024年6月1日
知识图谱KG在NLP的十年研究进展综述
专知会员服务
135+阅读 · 2022年10月4日
相关资讯
知识图谱KG在NLP的十年研究进展综述
专知
17+阅读 · 2022年10月4日
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
技术动态 | TechKG:一个面向中文学术领域的大型知识图谱
开放知识图谱
25+阅读 · 2018年12月20日
领域应用 | NLP 和知识图谱:金融科技领域的“双子星”
开放知识图谱
21+阅读 · 2018年8月12日
论文动态 | 基于知识图谱的问答系统关键技术研究 #02
开放知识图谱
10+阅读 · 2017年8月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员