Identifying specific and often complex behaviors from large language models (LLMs) in conversational settings is crucial for their evaluation. Recent work proposes novel techniques to find natural language prompts that induce specific behaviors from a target model, yet they are mainly studied in single-turn settings. In this work, we study behavior elicitation in the context of multi-turn conversations. We first offer an analytical framework that categorizes existing methods into three families based on their interactions with the target model: those that use only prior knowledge, those that use offline interactions, and those that learn from online interactions. We then introduce a generalized multi-turn formulation of the online method, unifying single-turn and multi-turn elicitation. We evaluate all three families of methods on automatically generating multi-turn test cases. We investigate the efficiency of these approaches by analyzing the trade-off between the query budget, i.e., the number of interactions with the target model, and the success rate, i.e., the discovery rate of behavior-eliciting inputs. We find that online methods can achieve an average success rate of 45/19/77% with just a few thousand queries over three tasks where static methods from existing multi-turn conversation benchmarks find few or even no failure cases. Our work highlights a novel application of behavior elicitation methods in multi-turn conversation evaluation and the need for the community to move towards dynamic benchmarks.


翻译:从大型语言模型(LLMs)在对话场景中识别特定且通常复杂的行为,对于其评估至关重要。近期研究提出了新颖技术来寻找能够从目标模型中诱导出特定行为的自然语言提示,但这些方法主要局限于单轮交互场景。本文研究了多轮对话背景下的行为引发问题。我们首先提出了一个分析框架,将现有方法根据其与目标模型的交互方式分为三类:仅利用先验知识的方法、利用离线交互的方法,以及从在线交互中学习的方法。随后,我们引入了在线方法的广义多轮形式化表述,统一了单轮与多轮行为引发框架。我们在自动生成多轮测试用例的任务上评估了这三类方法。通过分析查询预算(即与目标模型的交互次数)与成功率(即引发行为的输入发现率)之间的权衡关系,我们深入探究了这些方法的效率。研究发现,在三个任务中,在线方法仅需数千次查询即可实现平均45%/19%/77%的成功率,而现有多轮对话基准中的静态方法仅发现极少甚至无法找到失效案例。本研究凸显了行为引发方法在多轮对话评估中的创新应用,并表明研究社区亟需向动态基准测试方向推进。

0
下载
关闭预览

相关内容

赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
多模态大语言模型研究进展!
专知会员服务
42+阅读 · 2024年7月15日
基于LLM的多轮对话系统的最新进展综述
专知会员服务
58+阅读 · 2024年3月7日
上海交大最新《多轮对话理解》综述论文,20页pdf
专知会员服务
31+阅读 · 2021年10月12日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
【小夕精选】多轮对话之对话管理(Dialog Management)
夕小瑶的卖萌屋
27+阅读 · 2018年10月14日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
赛尔原创 | 教聊天机器人进行多轮对话
哈工大SCIR
18+阅读 · 2017年9月18日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关资讯
对话系统近期进展
专知
37+阅读 · 2019年3月23日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
【小夕精选】多轮对话之对话管理(Dialog Management)
夕小瑶的卖萌屋
27+阅读 · 2018年10月14日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
赛尔原创 | 教聊天机器人进行多轮对话
哈工大SCIR
18+阅读 · 2017年9月18日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员