Large Language Models (LLMs) excel at static interactions, where they answer user queries by retrieving knowledge encoded in their parameters. However, in many real-world settings, such as educational tutoring or medical assistance, relevant information is not directly available and must be actively acquired through dynamic interactions. An interactive agent would recognize its own uncertainty, ask targeted questions, and retain new knowledge efficiently. Prior work has primarily explored effective ways for a teacher to instruct the student, where the teacher identifies student gaps and provides guidance. In this work, we shift the focus to the student and investigate effective strategies to actively query the teacher in seeking useful information. Across math and coding benchmarks, where baseline student models begin with near-zero performance, we show that student-led approaches consistently yield absolute Pass@k improvements of at least 0.5 over static baselines. To improve question quality, we train students using Direct Preference Optimization (DPO) with guidance from either self or stronger students. We find that this guided training enables smaller models to learn how to ask better questions, further enhancing learning efficiency.


翻译:大型语言模型(LLM)在静态交互中表现出色,能够通过检索编码在参数中的知识来回答用户查询。然而,在许多现实场景中(例如教育辅导或医疗协助),相关信息并非直接可得,必须通过动态交互主动获取。一个理想的交互式智能体应能识别自身的不确定性、提出有针对性的问题,并高效保留新知识。先前的研究主要探索了教师指导学生的有效方式,即教师识别学生的知识缺口并提供指导。本工作将焦点转向学生,研究其主动向教师提问以获取有用信息的有效策略。在数学和编程基准测试中,基线学生模型初始表现接近零,我们发现学生主导的方法相较于静态基线模型能持续带来至少0.5的绝对Pass@k提升。为提升问题质量,我们采用直接偏好优化(DPO)方法训练学生模型,并引入来自自身或更强学生的指导。研究表明,这种引导式训练能使较小规模的模型学会如何提出更优质的问题,从而进一步提升学习效率。

0
下载
关闭预览

相关内容

专知会员服务
112+阅读 · 2020年6月26日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员