Large Language Models (LLMs) are increasingly embedded in applications, and people can shape model behavior by editing prompt instructions. Yet encoding subtle, domain-specific policies into prompts is challenging. Although this process often benefits from concrete test cases, test data and prompt instructions are typically developed as separate artifacts, reflecting traditional machine learning practices in which model tuning was slow and test sets were static. We argue that the fast, iterative nature of prompt engineering calls for removing this separation and enabling a new workflow: data-prompt co-evolution, where a living test set and prompt instructions evolve in tandem. We present an interactive system that operationalizes this workflow. It guides application developers to discover edge cases, articulate rationales for desired behavior, and iteratively evaluate revised prompts against a growing test set. A user study shows our workflow helps people refine prompts systematically, better aligning them with their intended policies. This work points toward more robust and responsible LLM applications through human-in-the-loop development.


翻译:大语言模型正日益嵌入各类应用中,人们可通过编辑提示指令来塑造模型行为。然而,将微妙且领域特定的策略编码到提示中具有挑战性。尽管这一过程通常受益于具体测试用例,但测试数据与提示指令通常作为独立产物开发,这反映了传统机器学习实践中模型调优缓慢且测试集静态的特点。我们认为,提示工程快速迭代的特性要求打破这种分离,并启用新的工作流程:数据-提示协同演化,即动态测试集与提示指令同步演进。我们提出一个实现该工作流程的交互式系统,引导应用开发者发现边缘案例、阐明期望行为的原理,并针对不断扩展的测试集迭代评估修订后的提示。用户研究表明,我们的工作流程能帮助人们系统化地优化提示,使其更符合预期策略。这项工作通过人在回路的开发模式,为构建更稳健、更负责任的大语言模型应用指明了方向。

0
下载
关闭预览

相关内容

测试集,在AI领域多指机器学习模型训练完成后,用于其测试的数据,以观测其性能以及泛化能力。
大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
大语言模型训练数据
专知会员服务
71+阅读 · 2024年11月22日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
数据与多模态大型语言模型的协同作用综述
专知会员服务
58+阅读 · 2024年7月13日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
大语言模型训练数据
专知会员服务
71+阅读 · 2024年11月22日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
数据与多模态大型语言模型的协同作用综述
专知会员服务
58+阅读 · 2024年7月13日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员