The growing availability of health-related instructional videos creates new opportunities for clinical training, patient rehabilitation, and health education, yet existing retrieval systems remain largely single-turn: a user submits one query and receives one ranked list. This interaction is brittle in health scenarios, where information needs are often vague at first and become clinically meaningful only after follow-up constraints such as posture, hand placement, contraindications, equipment, or patient condition are specified. We introduce interactive multi-turn semantic retrieval for health videos and construct MHVRC, a Multi-Turn Health Video Retrieval Corpus, by combining video-grounded descriptions from VideoChat-Flash with query refinements generated by DeepSeek. We further propose DATR, a Dialogue-Aware Two-Stage Retrieval framework. DATR first performs efficient coarse retrieval with a CLIP-style dual encoder and sparse frame sampling, then re-ranks the top candidates through multi-turn query fusion and a lightweight cross-encoder scoring module. Experiments on MHVRC show consistent gains over strong text-video retrieval baselines, while user studies indicate that refined multi-turn queries better capture fine-grained procedural semantics than single-turn annotations. The work establishes a benchmark and a scalable technical recipe for interactive health video retrieval.


翻译:随着健康相关教学视频的日益普及,临床培训、患者康复及健康教育迎来新机遇,然而现有检索系统仍以单轮交互为主:用户提交一次查询即获得一个排序列表。这种交互模式在健康场景下存在局限性——用户信息需求通常初始模糊,需经姿势、手部位置、禁忌症、设备或患者状况等后续约束条件明确后才具有临床意义。我们提出面向健康视频的交互式多轮语义检索方法,通过结合VideoChat-Flash生成的视频描述与DeepSeek产生的查询细化,构建多轮健康视频检索语料库MHVRC。进一步提出对话感知两阶段检索框架DATR:首先采用CLIP式双编码器与稀疏帧采样实现高效粗检索,然后通过多轮查询融合及轻量级交叉编码器评分模块对候选结果重排序。在MHVRC上的实验表明,该方法较之强文本-视频检索基线取得持续提升;用户研究显示,相较于单轮标注,细化的多轮查询能更准确捕获细粒度过程语义。该工作为交互式健康视频检索建立了基准与可扩展的技术方案。

0
下载
关闭预览

相关内容

健康是指一个人在身体、精神和社会等方面都处于良好的状态。 健康包括两个方面的内容:

一是主要脏器无疾病,身体形态发育良好,体形均匀,人体各系统具有良好的生理功能,有较强的身体活动能力和劳动能力,这是对健康最基本的要求;

二是对疾病的抵抗能力较强,能够适应环境变化,各种生理刺激以及致病因素对身体的作用。传统的健康观是“无病即健康”,现代人的健康观是整体健康,世界卫生组织提出“健康不仅是躯体没有疾病,还要具备心理健康、社会适应良好和有道德”。因此,现代人的健康内容包括:躯体健康、心理健康、心灵健康、社会健康、智力健康、道德健康、环境健康等。健康是人的基本权利。健康是人生的第一财富。
利用表示学习推动多机构电子健康记录数据研究
专知会员服务
16+阅读 · 2025年2月17日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
【AI与医学】多模态机器学习精准医疗健康
专知会员服务
83+阅读 · 2022年4月25日
专知会员服务
22+阅读 · 2021年4月1日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
【AI与医学】多模态机器学习精准医疗健康
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员