OMIND: Framework for Knowledge Grounded Finetuning and Multi-Turn Dialogue Benchmark for Mental Health LLMs - 专知论文

会员服务 ·

0

语言模型 · 健康 · 知识 · 多轮对话 · 基准 ·

OMIND: Framework for Knowledge Grounded Finetuning and Multi-Turn Dialogue Benchmark for Mental Health LLMs

翻译：标题：OMIND：面向心理健康大语言模型的知识引导微调与多轮对话基准框架

Suraj Racha,Prashant Harish Joshi,Utkarsh Maurya,Nitin Yadav,Mridul Sharma,Ananya Kunisetty,Saranya Darisipudi,Nirmal Punjabi,Ganesh Ramakrishnan

from arxiv, 9 pages, 3 figures, 5 tables

Large Language Models (LLMs) have shown remarkable capabilities for complex tasks, yet adaptation in medical domain, specifically mental health, poses specific challenges. Mental health is a rising concern globally with LLMs having large potential to help address the same. We highlight three primary challenges for LLMs in mental health - lack of high quality interpretable and knowledge grounded training data; training paradigms restricted to core capabilities, and evaluation of multi turn dialogue settings. Addressing it, we present oMind framework which includes training and aligning LLM agents for diverse capabilities including conversations; high quality ~164k multi-task SFT dataset, as a result of our generation pipeline based on Structured Knowledge retrieval, LLM based pruning, and review actions. We also introduce oMind-Chat - a novel multi turn benchmark dataset with expert annotated turn level and conversation level rubrics. Our diverse experiments on both core capabilities and conversations shows oMind LLMs consistently outperform baselines. oMind-LLM also shows significantly better reasoning with up to 80% win rate.

翻译：摘要：大语言模型在复杂任务中展现出卓越能力，但在医疗领域（尤其是心理健康）的适配仍面临特殊挑战。心理健康已成为全球日益关注的议题，而大语言模型在应对该问题上具有巨大潜力。我们指出大语言模型在心理健康领域的三大核心挑战：缺乏高质量、可解释且基于知识的训练数据；训练范式局限于核心能力；多轮对话场景评估不足。为应对这些问题，我们提出oMind框架，该框架涵盖对话等多种能力的大语言模型智能体训练与对齐方法，并基于结构化知识检索、大语言模型剪枝与审查流程，构建了约16.4万条高质量多任务SFT数据集。我们还引入oMind-Chat——一个包含专家标注的轮次级与会话级评估指标的新型多轮对话基准数据集。针对核心能力与对话场景的多项实验表明，oMind大语言模型持续优于基线模型，其中oMind-LLM展现出显著更强的推理能力，胜率高达80%。

0

相关内容

语言模型

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

专知会员服务

25+阅读 · 4月15日

医学领域大型语言模型的新进展

医学领域大型语言模型的新进展

专知会员服务

25+阅读 · 2025年10月5日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

231页pdf大模型新书！《大型语言模型基础》东北大学NLP实验室出品

231页pdf大模型新书！《大型语言模型基础》东北大学NLP实验室出品

专知会员服务

95+阅读 · 2025年1月19日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

大模型如何高效？OSU等最新《高效大型语言模型》综述，详述模型压缩、预训练、微调、提示等技术

大模型如何高效？OSU等最新《高效大型语言模型》综述，详述模型压缩、预训练、微调、提示等技术

专知会员服务

70+阅读 · 2023年12月10日

大模型如何做个性化？中科大等最新《当大型语言模型遇到个性化》综述，详述大模型与个性化的挑战与机遇

大模型如何做个性化？中科大等最新《当大型语言模型遇到个性化》综述，详述大模型与个性化的挑战与机遇

专知会员服务

84+阅读 · 2023年8月8日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

158+阅读 · 2023年8月8日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

专知

11+阅读 · 2022年10月24日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

人工智能学家

15+阅读 · 2018年8月4日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

基于多主题和网络模型的社交媒体电子医疗用户推荐研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

TQA-Bench: Evaluating LLMs for Multi-Table Question Answering

Arxiv

0+阅读 · 6月5日

GRACE: A Dynamic Coreset Selection Framework for Large Language Model Optimization

Arxiv

0+阅读 · 4月9日

Linguistic Comparison of AI- and Human-Written Responses to Online Mental Health Queries

Arxiv

0+阅读 · 3月25日

Large Language Models Meet NLP: A Survey

Arxiv

14+阅读 · 2024年5月21日

Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems

Arxiv

14+阅读 · 2024年1月11日

Prompting Frameworks for Large Language Models: A Survey

Arxiv

11+阅读 · 2023年11月21日

Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications

Arxiv

19+阅读 · 2023年11月10日

When Large Language Models Meet Personalization: Perspectives of Challenges and Opportunities

Arxiv

19+阅读 · 2023年7月31日

Towards Expert-Level Medical Question Answering with Large Language Models

Arxiv

26+阅读 · 2023年5月16日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

20+阅读 · 2023年5月8日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

2+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

3+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

专知会员服务

25+阅读 · 4月15日

医学领域大型语言模型的新进展

医学领域大型语言模型的新进展

专知会员服务

25+阅读 · 2025年10月5日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

231页pdf大模型新书！《大型语言模型基础》东北大学NLP实验室出品

231页pdf大模型新书！《大型语言模型基础》东北大学NLP实验室出品

专知会员服务

95+阅读 · 2025年1月19日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

大模型如何高效？OSU等最新《高效大型语言模型》综述，详述模型压缩、预训练、微调、提示等技术

大模型如何高效？OSU等最新《高效大型语言模型》综述，详述模型压缩、预训练、微调、提示等技术

专知会员服务

70+阅读 · 2023年12月10日

大模型如何做个性化？中科大等最新《当大型语言模型遇到个性化》综述，详述大模型与个性化的挑战与机遇

大模型如何做个性化？中科大等最新《当大型语言模型遇到个性化》综述，详述大模型与个性化的挑战与机遇

专知会员服务

84+阅读 · 2023年8月8日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

158+阅读 · 2023年8月8日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

专知

11+阅读 · 2022年10月24日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

人工智能学家

15+阅读 · 2018年8月4日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

相关论文

TQA-Bench: Evaluating LLMs for Multi-Table Question Answering

Arxiv

0+阅读 · 6月5日

GRACE: A Dynamic Coreset Selection Framework for Large Language Model Optimization

Arxiv

0+阅读 · 4月9日

Linguistic Comparison of AI- and Human-Written Responses to Online Mental Health Queries

Arxiv

0+阅读 · 3月25日

Large Language Models Meet NLP: A Survey

Arxiv

14+阅读 · 2024年5月21日

Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems

Arxiv

14+阅读 · 2024年1月11日

Prompting Frameworks for Large Language Models: A Survey

Arxiv

11+阅读 · 2023年11月21日

Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications

Arxiv

19+阅读 · 2023年11月10日

When Large Language Models Meet Personalization: Perspectives of Challenges and Opportunities

Arxiv

19+阅读 · 2023年7月31日

Towards Expert-Level Medical Question Answering with Large Language Models

Arxiv

26+阅读 · 2023年5月16日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

20+阅读 · 2023年5月8日

相关基金

基于多主题和网络模型的社交媒体电子医疗用户推荐研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员