Tourism and travel planning increasingly rely on digital assistance, yet existing multimodal AI systems often lack specialized knowledge and contextual understanding of urban environments. We present TraveLLaMA, a specialized multimodal language model designed for comprehensive travel assistance. Our work addresses the fundamental challenge of developing practical AI travel assistants through three key contributions: (1) TravelQA, a novel dataset of 265k question-answer pairs combining 160k text QA from authentic travel sources, 100k vision-language QA featuring maps and location imagery, and 5k expert-annotated Chain-of-Thought reasoning examples; (2) Travel-CoT, a structured reasoning framework that decomposes travel queries into spatial, temporal, and practical dimensions, improving answer accuracy by 10.8\% while providing interpretable decision paths; and (3) an interactive agent system validated through extensive user studies. Through fine-tuning experiments on state-of-the-art vision-language models (LLaVA, Qwen-VL, Shikra), we achieve 6.2-9.4\% base improvements, further enhanced by Travel-CoT reasoning. Our model demonstrates superior capabilities in contextual travel recommendations, map interpretation, and scene understanding while providing practical information such as operating hours and cultural insights. User studies with 500 participants show TraveLLaMA achieves a System Usability Scale score of 82.5, significantly outperforming general-purpose models and establishing new standards for multimodal travel assistance systems.


翻译:旅游业与行程规划日益依赖数字辅助,然而现有的多模态人工智能系统往往缺乏对城市环境的专业知识与情境理解。本文提出TraveLLaMA——一个专为全方位旅行辅助设计的专业化多模态语言模型。本研究通过三项核心贡献应对开发实用化AI旅行助手的基础性挑战:(1)TravelQA,一个包含26.5万个问答对的新型数据集,整合了来自真实旅行源的16万个文本问答、10万个包含地图与位置图像的视觉语言问答,以及5千个专家标注的思维链推理示例;(2)Travel-CoT,一种将旅行查询分解为空间、时间及实用维度的结构化推理框架,在提供可解释决策路径的同时将答案准确率提升10.8%;(3)经过大规模用户研究验证的交互式智能体系统。通过对前沿视觉语言模型(LLaVA、Qwen-VL、Shikra)进行微调实验,我们实现了6.2%-9.4%的基础性能提升,并经由Travel-CoT推理机制进一步强化。该模型在情境化旅行推荐、地图解析与场景理解方面展现出卓越能力,同时能提供营业时间、文化洞察等实用信息。针对500名参与者的用户研究表明,TraveLLaMA获得82.5分的系统可用性量表评分,显著优于通用模型,为多模态旅行辅助系统确立了新标准。

0
下载
关闭预览

相关内容

深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
数据与多模态大型语言模型的协同作用综述
专知会员服务
58+阅读 · 2024年7月13日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
出行即服务(MAAS)框架
智能交通技术
53+阅读 · 2019年5月22日
【未来黑科技】深度玩转行人重识别与跨境追踪
炼数成金订阅号
11+阅读 · 2019年4月18日
携程的旅游知识图谱构建和应用
数据猿
38+阅读 · 2018年12月31日
MAAS:出行服务的颠覆者
智能交通技术
16+阅读 · 2018年12月27日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
数据与多模态大型语言模型的协同作用综述
专知会员服务
58+阅读 · 2024年7月13日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员