The ability to provide trustworthy maternal health information using phone-based chatbots can have a significant impact, particularly in low-resource settings where users have low health literacy and limited access to care. However, deploying such systems is technically challenging: user queries are short, underspecified, and code-mixed across languages, answers require regional context-specific grounding, and partial or missing symptom context makes safe routing decisions difficult. We present a chatbot for maternal health in India developed through a partnership between academic researchers, a health tech company, a public health nonprofit, and a hospital. The system combines (1) stage-aware triage, routing high-risk queries to expert templates, (2) hybrid retrieval over curated maternal/newborn guidelines, and (3) evidence-conditioned generation from an LLM. Our core contribution is an evaluation workflow for high-stakes deployment under limited expert supervision. Targeting both component-level and end-to-end testing, we introduce: (i) a labeled triage benchmark (N=150) achieving 86.7% emergency recall, explicitly reporting the missed-emergency vs. over-escalation trade-off; (ii) a synthetic multi-evidence retrieval benchmark (N=100) with chunk-level evidence labels; (iii) LLM-as-judge comparison on real queries (N=781) using clinician-codesigned criteria; and (iv) expert validation. Our findings show that trustworthy medical assistants in multilingual, noisy settings require defense-in-depth design paired with multi-method evaluation, rather than any single model and evaluation method choice.


翻译:利用基于电话的聊天机器人提供可信赖的孕产妇健康信息的能力可能产生重大影响,尤其在资源匮乏的环境中,这些地区的用户健康素养较低且获得医疗服务的机会有限。然而,部署此类系统在技术上具有挑战性:用户查询简短、未充分说明且跨语言代码混合,回答需要基于区域特定背景,部分或缺失的症状信息使得安全分流决策变得困难。我们介绍一款为印度孕产妇健康开发的聊天机器人,该机器人由学术研究人员、一家健康科技公司、一个公共卫生非营利组织和一家医院合作开发。该系统结合了(1)阶段感知分流,将高风险查询路由至专家模板;(2)对精心整理的孕产妇/新生儿指南进行混合检索;以及(3)基于大型语言模型(LLM)的证据条件生成。我们的核心贡献是在有限专家监督下,为高风险部署场景设计了一套评估工作流程。针对组件级和端到端测试,我们引入了:(i)一个标注的分流基准(N=150),实现了86.7%的紧急情况召回率,明确报告了漏报紧急情况与过度升级之间的权衡;(ii)一个包含分块级证据标签的合成多证据检索基准(N=100);(iii)使用临床医生共同设计的标准,对真实查询(N=781)进行LLM作为评判者的比较;以及(iv)专家验证。我们的研究结果表明,在多语言、嘈杂环境中构建可信赖的医疗助手需要采用深度防御设计并结合多方法评估,而非依赖单一模型和评估方法的选择。

0
下载
关闭预览

相关内容

Chatbot,聊天机器人。 chatbot是场交互革命,也是一个多技术融合的平台。上图给出了构建一个chatbot需要具备的组件,简单地说chatbot = NLU(Natural Language Understanding) + NLG(Natural Language Generation)。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【新书】聊天机器人和文本生成
专知会员服务
32+阅读 · 2024年8月8日
基于大型语言模型的AI聊天机器人的完整综述
专知会员服务
43+阅读 · 2024年6月26日
医疗人工智能发展现状及展望
专知会员服务
83+阅读 · 2022年4月11日
检索式聊天机器人技术综述
专知会员服务
53+阅读 · 2021年11月28日
专知会员服务
17+阅读 · 2021年8月25日
开始报名!SMP机器人群聊比赛
哈工大SCIR
13+阅读 · 2019年6月28日
如何运用Python建一个聊天机器人?
七月在线实验室
17+阅读 · 2018年1月23日
赛尔原创 | 教聊天机器人进行多轮对话
哈工大SCIR
18+阅读 · 2017年9月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
0+阅读 · 17分钟前
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 45分钟前
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
相关VIP内容
【新书】聊天机器人和文本生成
专知会员服务
32+阅读 · 2024年8月8日
基于大型语言模型的AI聊天机器人的完整综述
专知会员服务
43+阅读 · 2024年6月26日
医疗人工智能发展现状及展望
专知会员服务
83+阅读 · 2022年4月11日
检索式聊天机器人技术综述
专知会员服务
53+阅读 · 2021年11月28日
专知会员服务
17+阅读 · 2021年8月25日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员