Integrity Shield A System for Ethical AI Use & Authorship Transparency in Assessments - 专知论文

会员服务 ·

0

完整性 · 系统 · 透明度 · 语言模型 · 词元 ·

Integrity Shield A System for Ethical AI Use & Authorship Transparency in Assessments

翻译：完整性盾牌：评估中伦理人工智能使用与作者透明度的系统

Ashish Raj Shekhar,Shiven Agarwal,Priyanuj Bordoloi,Yash Shah,Tejas Anvekar,Vivek Gupta

Large Language Models (LLMs) can now solve entire exams directly from uploaded PDF assessments, raising urgent concerns about academic integrity and the reliability of grades and credentials. Existing watermarking techniques either operate at the token level or assume control over the model's decoding process, making them ineffective when students query proprietary black-box systems with instructor-provided documents. We present Integrity Shield, a document-layer watermarking system that embeds schema-aware, item-level watermarks into assessment PDFs while keeping their human-visible appearance unchanged. These watermarks consistently prevent MLLMs from answering shielded exam PDFs and encode stable, item-level signatures that can be reliably recovered from model or student responses. Across 30 exams spanning STEM, humanities, and medical reasoning, Integrity Shield achieves exceptionally high prevention (91-94% exam-level blocking) and strong detection reliability (89-93% signature retrieval) across four commercial MLLMs. Our demo showcases an interactive interface where instructors upload an exam, preview watermark behavior, and inspect pre/post AI performance & authorship evidence.

翻译：大型语言模型（LLMs）现已能够直接通过上传的PDF评估材料解答完整试卷，这引发了关于学术诚信以及成绩与证书可靠性的迫切担忧。现有的水印技术要么在词元层面操作，要么需控制模型的解码过程，当学生使用教师提供的文档查询专有黑盒系统时，这些技术均告失效。我们提出完整性盾牌——一种文档层水印系统，其将模式感知的题目级水印嵌入评估PDF中，同时保持人眼可见外观不变。这些水印能持续阻止多模态大语言模型（MLLMs）解答受保护的考试PDF，并编码稳定的题目级特征签名，这些签名可从模型或学生回答中可靠恢复。在涵盖STEM、人文和医学推理的30场考试中，完整性盾牌在四种商用MLLM上实现了极高的防护率（91-94%的考试级阻断）和强大的检测可靠性（89-93%的特征签名检索率）。我们的演示平台展示了交互式界面：教师可上传试卷、预览水印行为，并检查人工智能使用前后的表现与作者归属证据。

0

相关内容

完整性

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

17+阅读 · 1月14日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

迈向透明人工智能（AI）：可解释性语言模型综述

迈向透明人工智能（AI）：可解释性语言模型综述

专知会员服务

15+阅读 · 2025年9月29日

【斯坦福博士论文】大语言模型的AI辅助评估

【斯坦福博士论文】大语言模型的AI辅助评估

专知会员服务

31+阅读 · 2025年3月30日

迈向可信的人工智能：伦理和稳健的大型语言模型综述

迈向可信的人工智能：伦理和稳健的大型语言模型综述

专知会员服务

39+阅读 · 2024年7月28日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

专知

25+阅读 · 2020年12月6日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

基于量子模糊承诺体系的生物身份认证系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于智能信息处理的Web服务可信性预测与评估技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于延性材料RVE破断行为的结构完整性评价基础问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind

Arxiv

0+阅读 · 2月14日

On Protecting Agentic Systems' Intellectual Property via Watermarking

Arxiv

0+阅读 · 2月9日

CASTLE: A Comprehensive Benchmark for Evaluating Student-Tailored Personalized Safety in Large Language Models

Arxiv

0+阅读 · 2月5日

AICrypto: Evaluating Cryptography Capabilities of Large Language Models

Arxiv

0+阅读 · 2月3日

Decomposed Trust: Exploring Privacy, Adversarial Robustness, Fairness, and Ethics of Low-Rank LLMs

Arxiv

0+阅读 · 2月2日

Beyond Accuracy: A Cognitive Load Framework for Mapping the Capability Boundaries of Tool-use Agents

Arxiv

0+阅读 · 1月28日

SGCR: A Specification-Grounded Framework for Trustworthy LLM Code Review

Arxiv

0+阅读 · 1月27日

CiteGuard: Faithful Citation Attribution for LLMs via Retrieval-Augmented Validation

Arxiv

0+阅读 · 1月26日

PAIR-SAFE: A Paired-Agent Approach for Runtime Auditing and Refining AI-Mediated Mental Health Support

Arxiv

0+阅读 · 1月19日

EduThink4AI: Bridging Educational Critical Thinking and Multi-Agent LLM Systems

Arxiv

0+阅读 · 1月17日

VIP会员

文章信息

相关主题

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

8+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

2+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

3+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

2+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

2+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

10+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

5+阅读 · 4月20日

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

15+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

14+阅读 · 4月19日

相关VIP内容

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

17+阅读 · 1月14日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

迈向透明人工智能（AI）：可解释性语言模型综述

迈向透明人工智能（AI）：可解释性语言模型综述

专知会员服务

15+阅读 · 2025年9月29日

【斯坦福博士论文】大语言模型的AI辅助评估

【斯坦福博士论文】大语言模型的AI辅助评估

专知会员服务

31+阅读 · 2025年3月30日

迈向可信的人工智能：伦理和稳健的大型语言模型综述

迈向可信的人工智能：伦理和稳健的大型语言模型综述

专知会员服务

39+阅读 · 2024年7月28日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

专知

25+阅读 · 2020年12月6日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

相关论文

Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind

Arxiv

0+阅读 · 2月14日

On Protecting Agentic Systems' Intellectual Property via Watermarking

Arxiv

0+阅读 · 2月9日

CASTLE: A Comprehensive Benchmark for Evaluating Student-Tailored Personalized Safety in Large Language Models

Arxiv

0+阅读 · 2月5日

AICrypto: Evaluating Cryptography Capabilities of Large Language Models

Arxiv

0+阅读 · 2月3日

Decomposed Trust: Exploring Privacy, Adversarial Robustness, Fairness, and Ethics of Low-Rank LLMs

Arxiv

0+阅读 · 2月2日

Beyond Accuracy: A Cognitive Load Framework for Mapping the Capability Boundaries of Tool-use Agents

Arxiv

0+阅读 · 1月28日

SGCR: A Specification-Grounded Framework for Trustworthy LLM Code Review

Arxiv

0+阅读 · 1月27日

CiteGuard: Faithful Citation Attribution for LLMs via Retrieval-Augmented Validation

Arxiv

0+阅读 · 1月26日

PAIR-SAFE: A Paired-Agent Approach for Runtime Auditing and Refining AI-Mediated Mental Health Support

Arxiv

0+阅读 · 1月19日

EduThink4AI: Bridging Educational Critical Thinking and Multi-Agent LLM Systems

Arxiv

0+阅读 · 1月17日

相关基金

基于量子模糊承诺体系的生物身份认证系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于智能信息处理的Web服务可信性预测与评估技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于延性材料RVE破断行为的结构完整性评价基础问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员