The Conversational Exam: A Scalable Assessment Design for the AI Era - 专知论文

会员服务 ·

0

有效性 · AI · 设计 · 失效 · 交互 ·

The Conversational Exam: A Scalable Assessment Design for the AI Era

翻译：对话式考试：面向人工智能时代的可扩展评估设计

Lorena A. Barba,Laura Stegner

from arxiv, 12 pages

Traditional assessment methods collapse when students use generative AI to complete work without genuine engagement, creating an illusion of competence where they believe they're learning but aren't. This paper presents the conversational exam -- a scalable oral examination format that restores assessment validity by having students code live while explaining their reasoning. Drawing on human-computer interaction principles, we examined 58 students in small groups across just two days, demonstrating that oral exams can scale to typical class sizes. The format combines authentic practice (students work with documentation and supervised AI access) with inherent validity (real-time performance cannot be faked). We provide detailed implementation guidance to help instructors adapt this approach, offering a practical path forward when many educators feel paralyzed between banning AI entirely or accepting that valid assessment is impossible.

翻译：当学生利用生成式人工智能完成作业却未真正投入时，传统评估方法便会失效，这制造了一种能力假象——学生自以为在学习实则不然。本文提出对话式考试，这是一种可扩展的口试形式，通过让学生在实时编码过程中解释其推理思路，从而恢复评估的有效性。基于人机交互原理，我们在短短两天内对58名学生进行了小组测试，证明口试能够扩展至常规班级规模。该形式融合了真实性实践（学生可查阅文档并在受监督下使用AI）与内在有效性（实时表现无法造假）。我们提供了详细的实施指南，以帮助教师采用此方法，为许多教育工作者在“完全禁用AI”与“认定有效评估已无可能”的两难困境中，提供了一条切实可行的前进路径。

0

相关内容

有效性

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

专知会员服务

18+阅读 · 2025年7月15日

首篇「Test-Time Scaling」全景综述，深入剖析AI深思之道

首篇「Test-Time Scaling」全景综述，深入剖析AI深思之道

专知会员服务

15+阅读 · 2025年5月14日

《生成式人工智能和情报评估》

《生成式人工智能和情报评估》

专知会员服务

88+阅读 · 2024年7月22日

《综述：测试与评估中应用的人工智能工具》

《综述：测试与评估中应用的人工智能工具》

专知会员服务

74+阅读 · 2024年1月22日

《应对人工智能系统测试和评估新挑战的最佳实践》

《应对人工智能系统测试和评估新挑战的最佳实践》

专知会员服务

89+阅读 · 2023年8月7日

可解释人工智能中的对抗攻击和防御

可解释人工智能中的对抗攻击和防御

专知会员服务

43+阅读 · 2023年6月20日

【南洋理工博士论文】从知识增强到多任务:面向类人对话系统，109页pdf

【南洋理工博士论文】从知识增强到多任务:面向类人对话系统，109页pdf

专知会员服务

29+阅读 · 2022年12月13日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

SMP 2019 第三届中文人机对话技术评测顺利落幕

SMP 2019 第三届中文人机对话技术评测顺利落幕

哈工大SCIR

12+阅读 · 2019年8月19日

【ICML2019】微软智能对话方法教程，130页PPT带你了解最新研究进展

【ICML2019】微软智能对话方法教程，130页PPT带你了解最新研究进展

专知

15+阅读 · 2019年6月12日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

人工智能学家

15+阅读 · 2018年8月4日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

赛尔原创 | 对话系统评价方法综述

赛尔原创 | 对话系统评价方法综述

哈工大SCIR

11+阅读 · 2017年11月13日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Transforming GenAI Policy to Prompting Instruction: An RCT of Scalable Prompting Interventions in a CS1 Course

Arxiv

0+阅读 · 2月17日

WavBench: Benchmarking Reasoning, Colloquialism, and Paralinguistics for End-to-End Spoken Dialogue Models

Arxiv

0+阅读 · 2月13日

Chaplains' Reflections on the Design and Usage of AI for Conversational Care

Arxiv

0+阅读 · 2月3日

Multi-Level Testing of Conversational AI Systems

Arxiv

0+阅读 · 2月3日

Evaluating Generative AI in the Lab: Methodological Challenges and Guidelines

Arxiv

0+阅读 · 1月28日

SysMoBench: Evaluating AI on Formally Modeling Complex Real-World Systems

Arxiv

0+阅读 · 1月28日

Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework

Arxiv

0+阅读 · 1月21日

Seeing to Think? How Source Transparency Design Shapes Interactive Information Seeking and Evaluation in Conversational AI

Arxiv

0+阅读 · 1月21日

Reframing Conversational Design in HRI: Deliberate Design with AI Scaffolds

Arxiv

0+阅读 · 1月17日

Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

1+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

1+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

1+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

1+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

0+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

8+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

9+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

12+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

4+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

4+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

14+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

3+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

14+阅读 · 4月18日

相关VIP内容

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

专知会员服务

18+阅读 · 2025年7月15日

首篇「Test-Time Scaling」全景综述，深入剖析AI深思之道

首篇「Test-Time Scaling」全景综述，深入剖析AI深思之道

专知会员服务

15+阅读 · 2025年5月14日

《生成式人工智能和情报评估》

《生成式人工智能和情报评估》

专知会员服务

88+阅读 · 2024年7月22日

《综述：测试与评估中应用的人工智能工具》

《综述：测试与评估中应用的人工智能工具》

专知会员服务

74+阅读 · 2024年1月22日

《应对人工智能系统测试和评估新挑战的最佳实践》

《应对人工智能系统测试和评估新挑战的最佳实践》

专知会员服务

89+阅读 · 2023年8月7日

可解释人工智能中的对抗攻击和防御

可解释人工智能中的对抗攻击和防御

专知会员服务

43+阅读 · 2023年6月20日

【南洋理工博士论文】从知识增强到多任务:面向类人对话系统，109页pdf

【南洋理工博士论文】从知识增强到多任务:面向类人对话系统，109页pdf

专知会员服务

29+阅读 · 2022年12月13日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

热门VIP内容

开通专知VIP会员享更多权益服务

军事通信系统与设备的技术演进综述

《北约标准：医疗评估手册》174页

乌克兰前线的五项创新

《北约 AI手册：作战人员的实用考量》（2026最新64页）

相关资讯

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

SMP 2019 第三届中文人机对话技术评测顺利落幕

SMP 2019 第三届中文人机对话技术评测顺利落幕

哈工大SCIR

12+阅读 · 2019年8月19日

【ICML2019】微软智能对话方法教程，130页PPT带你了解最新研究进展

【ICML2019】微软智能对话方法教程，130页PPT带你了解最新研究进展

专知

15+阅读 · 2019年6月12日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

人工智能学家

15+阅读 · 2018年8月4日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

赛尔原创 | 对话系统评价方法综述

赛尔原创 | 对话系统评价方法综述

哈工大SCIR

11+阅读 · 2017年11月13日

相关论文

Transforming GenAI Policy to Prompting Instruction: An RCT of Scalable Prompting Interventions in a CS1 Course

Arxiv

0+阅读 · 2月17日

WavBench: Benchmarking Reasoning, Colloquialism, and Paralinguistics for End-to-End Spoken Dialogue Models

Arxiv

0+阅读 · 2月13日

Chaplains' Reflections on the Design and Usage of AI for Conversational Care

Arxiv

0+阅读 · 2月3日

Multi-Level Testing of Conversational AI Systems

Arxiv

0+阅读 · 2月3日

Evaluating Generative AI in the Lab: Methodological Challenges and Guidelines

Arxiv

0+阅读 · 1月28日

SysMoBench: Evaluating AI on Formally Modeling Complex Real-World Systems

Arxiv

0+阅读 · 1月28日

Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework

Arxiv

0+阅读 · 1月21日

Seeing to Think? How Source Transparency Design Shapes Interactive Information Seeking and Evaluation in Conversational AI

Arxiv

0+阅读 · 1月21日

Reframing Conversational Design in HRI: Deliberate Design with AI Scaffolds

Arxiv

0+阅读 · 1月17日

Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework

Arxiv

0+阅读 · 1月15日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员