Cogniscope: A Synthetic Longitudinal Benchmark and Browser-Based Evaluation Framework for Early-Risk Cognitive AI Systems - 专知论文

会员服务 ·

0

系统 · 合成 · 人工智能系统 · 基准 · 智能系统 ·

Cogniscope: A Synthetic Longitudinal Benchmark and Browser-Based Evaluation Framework for Early-Risk Cognitive AI Systems

翻译：Cogniscope：面向早期风险认知人工智能系统的合成纵向基准与基于浏览器的评估框架

Mahfuza Farooque,Ananya Drishti,Mukhil Muruganantham Prakaash,Uttkarsh Agarwal,Zahra Abdul Basit,Asish Kondragunta

We present Cogniscope, an open evaluation framework for studying longitudinal early-risk AI systems under controlled behavioral drift, sparse observations, delayed evidence, and heterogeneous progression patterns. Cogniscope combines two complementary components: a synthetic simulation engine that generates privacy-preserving longitudinal behavioral traces aligned with configurable latent risk trajectories, and a browser-based data-collection instrument implemented as a Chrome extension for capturing naturalistic video interaction telemetry and micro-question responses during YouTube playback. The released benchmark includes 200,000 simulated video-interaction records from 200 users over 200 days, a 504-session schema-aligned synthetic deployment dataset across nine behavioral profiles, an 18-table relational schema, baseline evaluation scripts, and time-aware metrics including Early Risk Detection Error (ERDE) and time-to-detection (TTD). We emphasize that Cogniscope is not a diagnostic system and does not claim clinical validity. Instead, it provides a reusable testbed for evaluating how sequential models behave under known longitudinal challenges before deployment with real human-subject data. Experiments show that simple behavioral coherence signals separate simulated risk states under controlled priors, while rule-based deployment-profile classification remains challenging, motivating learned temporal models and robust evaluation protocols.

翻译：我们提出Cogniscope——一个开放的评估框架，用于研究受控行为漂移、稀疏观测、延迟证据及异质性进展模式下的纵向早期风险人工智能系统。Cogniscope包含两个互补组件：一个合成模拟引擎，可生成符合可配置潜在风险轨迹、保护隐私的纵向行为痕迹；以及一个基于浏览器的数据采集工具（以Chrome扩展形式实现），用于在YouTube播放过程中捕获自然交互视频遥测数据与微问答响应。已发布的基准数据集包含20万条来自200名用户、持续200天的模拟视频交互记录；涵盖9种行为谱型、含504个会话的符合模式化架构的合成部署数据集；18表关系模式；基线评估脚本；以及包括早期风险检测误差（ERDE）和检测时间（TTD）在内的时效性指标。我们强调，Cogniscope并非诊断系统，亦不宣称具备临床有效性。相反，它提供了一个可复用的测试平台，用于评估序列模型在真实人类受试者数据部署前，面对已知纵向挑战时的表现。实验表明，在受控先验条件下，简单的行为一致性信号可区分模拟风险状态，而基于规则部署的谱型分类仍具挑战性，这激励了学习型时序模型与稳健评估协议的研究。

0

相关内容

具身智能安全综述：风险、攻击与防御的多层分类框架

具身智能安全综述：风险、攻击与防御的多层分类框架

专知会员服务

19+阅读 · 5月6日

一种Agent自主性风险评估框架 | 最新文献

一种Agent自主性风险评估框架 | 最新文献

专知会员服务

24+阅读 · 2025年10月24日

《人工智能军事系统的风险分级监管路径》

《人工智能军事系统的风险分级监管路径》

专知会员服务

23+阅读 · 2025年7月10日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

《用于战斗机实时飞行性能预测和评估的人工智能框架》

《用于战斗机实时飞行性能预测和评估的人工智能框架》

专知会员服务

30+阅读 · 2025年2月12日

《评估生成式人工智能的红队方法》最新37页长综述

《评估生成式人工智能的红队方法》最新37页长综述

专知会员服务

57+阅读 · 2024年5月27日

《人工智能风险管理框架》2023最新48页报告，美国国家标准技术研究所 (NIST)

《人工智能风险管理框架》2023最新48页报告，美国国家标准技术研究所 (NIST)

专知会员服务

67+阅读 · 2023年2月1日

人工智能安全框架

专知会员服务

64+阅读 · 2021年7月5日

《人工智能安全框架（2020年）》白皮书，68页pdf

《人工智能安全框架（2020年）》白皮书，68页pdf

专知会员服务

167+阅读 · 2021年1月9日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

开放知识图谱

10+阅读 · 2022年8月8日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

AAAI 2020 | 中科大：智能教育系统中的神经认知诊断，从数据中学习交互函数

AAAI 2020 | 中科大：智能教育系统中的神经认知诊断，从数据中学习交互函数

AI科技评论

24+阅读 · 2020年1月11日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

数据分析

13+阅读 · 2018年8月15日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

AI100

11+阅读 · 2017年11月17日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

移动社会网络中情境感知的多维个性化信任评价研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多层网络智能体分析的银行业系统风险研究：形成、传染与救助策略

国家自然科学基金

0+阅读 · 2015年12月31日

Forward-Looking与Backward-Looking相结合的投资组合管理

国家自然科学基金

1+阅读 · 2014年12月31日

风险信息披露、风险感知与资本市场风险识别行为

国家自然科学基金

1+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

面向大数据的城市地下工程施工期安全风险评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于网络传导的金融系统风险度量：理论及其应用

国家自然科学基金

2+阅读 · 2014年12月31日

考虑具有风险结构的决策建模及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

CogGuard: Cognitive and Operational Profiling for Proactive Warning in Edge Intelligent Services

Arxiv

0+阅读 · 6月13日

Thinking Outside the [Chat]Box: Bridging Computer Science and Industrial Design for Cognitive-Inclusive Generative AI

Arxiv

0+阅读 · 6月12日

CritLens: Visual Analytics for Criteria Discovery in Review-Based Decision Making

Arxiv

0+阅读 · 6月7日

CyberGym-E2E: Scalable Real-World Benchmark for AI Agents' End-to-End Cybersecurity Capabilities

Arxiv

0+阅读 · 6月3日

From Task Allocation to Risk Clearing: A Unifying Interface for Mixed Human-Agent Societies

Arxiv

0+阅读 · 5月26日

ProofAgent Harness: Open Infrastructure for Adversarial Evaluation of AI Agents

Arxiv

0+阅读 · 5月22日

Argus: Evidence Assembly for Scalable Deep Research Agents

Arxiv

0+阅读 · 5月19日

STRIDE-AI: A Threat Modeling Framework for Generative AI Security Assessment

Arxiv

0+阅读 · 5月16日

A Multi-Agent Orchestration Framework for Venture Capital Due Diligence

Arxiv

0+阅读 · 5月13日

AICoFe: Implementation and Deployment of an AI-Based Collaborative Feedback System for Higher Education

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

人工智能系统

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

具身智能安全综述：风险、攻击与防御的多层分类框架

具身智能安全综述：风险、攻击与防御的多层分类框架

专知会员服务

19+阅读 · 5月6日

一种Agent自主性风险评估框架 | 最新文献

一种Agent自主性风险评估框架 | 最新文献

专知会员服务

24+阅读 · 2025年10月24日

《人工智能军事系统的风险分级监管路径》

《人工智能军事系统的风险分级监管路径》

专知会员服务

23+阅读 · 2025年7月10日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

《用于战斗机实时飞行性能预测和评估的人工智能框架》

《用于战斗机实时飞行性能预测和评估的人工智能框架》

专知会员服务

30+阅读 · 2025年2月12日

《评估生成式人工智能的红队方法》最新37页长综述

《评估生成式人工智能的红队方法》最新37页长综述

专知会员服务

57+阅读 · 2024年5月27日

《人工智能风险管理框架》2023最新48页报告，美国国家标准技术研究所 (NIST)

《人工智能风险管理框架》2023最新48页报告，美国国家标准技术研究所 (NIST)

专知会员服务

67+阅读 · 2023年2月1日

人工智能安全框架

专知会员服务

64+阅读 · 2021年7月5日

《人工智能安全框架（2020年）》白皮书，68页pdf

《人工智能安全框架（2020年）》白皮书，68页pdf

专知会员服务

167+阅读 · 2021年1月9日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

开放知识图谱

10+阅读 · 2022年8月8日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

AAAI 2020 | 中科大：智能教育系统中的神经认知诊断，从数据中学习交互函数

AAAI 2020 | 中科大：智能教育系统中的神经认知诊断，从数据中学习交互函数

AI科技评论

24+阅读 · 2020年1月11日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

数据分析

13+阅读 · 2018年8月15日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

AI100

11+阅读 · 2017年11月17日

相关论文

CogGuard: Cognitive and Operational Profiling for Proactive Warning in Edge Intelligent Services

Arxiv

0+阅读 · 6月13日

Thinking Outside the [Chat]Box: Bridging Computer Science and Industrial Design for Cognitive-Inclusive Generative AI

Arxiv

0+阅读 · 6月12日

CritLens: Visual Analytics for Criteria Discovery in Review-Based Decision Making

Arxiv

0+阅读 · 6月7日

CyberGym-E2E: Scalable Real-World Benchmark for AI Agents' End-to-End Cybersecurity Capabilities

Arxiv

0+阅读 · 6月3日

From Task Allocation to Risk Clearing: A Unifying Interface for Mixed Human-Agent Societies

Arxiv

0+阅读 · 5月26日

ProofAgent Harness: Open Infrastructure for Adversarial Evaluation of AI Agents

Arxiv

0+阅读 · 5月22日

Argus: Evidence Assembly for Scalable Deep Research Agents

Arxiv

0+阅读 · 5月19日

STRIDE-AI: A Threat Modeling Framework for Generative AI Security Assessment

Arxiv

0+阅读 · 5月16日

A Multi-Agent Orchestration Framework for Venture Capital Due Diligence

Arxiv

0+阅读 · 5月13日

AICoFe: Implementation and Deployment of an AI-Based Collaborative Feedback System for Higher Education

Arxiv

0+阅读 · 5月6日

相关基金

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

移动社会网络中情境感知的多维个性化信任评价研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多层网络智能体分析的银行业系统风险研究：形成、传染与救助策略

国家自然科学基金

0+阅读 · 2015年12月31日

Forward-Looking与Backward-Looking相结合的投资组合管理

国家自然科学基金

1+阅读 · 2014年12月31日

风险信息披露、风险感知与资本市场风险识别行为

国家自然科学基金

1+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

面向大数据的城市地下工程施工期安全风险评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于网络传导的金融系统风险度量：理论及其应用

国家自然科学基金

2+阅读 · 2014年12月31日

考虑具有风险结构的决策建模及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员