We present Cogniscope, an open evaluation framework for studying longitudinal early-risk AI systems under controlled behavioral drift, sparse observations, delayed evidence, and heterogeneous progression patterns. Cogniscope combines two complementary components: a synthetic simulation engine that generates privacy-preserving longitudinal behavioral traces aligned with configurable latent risk trajectories, and a browser-based data-collection instrument implemented as a Chrome extension for capturing naturalistic video interaction telemetry and micro-question responses during YouTube playback. The released benchmark includes 200,000 simulated video-interaction records from 200 users over 200 days, a 504-session schema-aligned synthetic deployment dataset across nine behavioral profiles, an 18-table relational schema, baseline evaluation scripts, and time-aware metrics including Early Risk Detection Error (ERDE) and time-to-detection (TTD). We emphasize that Cogniscope is not a diagnostic system and does not claim clinical validity. Instead, it provides a reusable testbed for evaluating how sequential models behave under known longitudinal challenges before deployment with real human-subject data. Experiments show that simple behavioral coherence signals separate simulated risk states under controlled priors, while rule-based deployment-profile classification remains challenging, motivating learned temporal models and robust evaluation protocols.


翻译:我们提出Cogniscope——一个开放的评估框架,用于研究受控行为漂移、稀疏观测、延迟证据及异质性进展模式下的纵向早期风险人工智能系统。Cogniscope包含两个互补组件:一个合成模拟引擎,可生成符合可配置潜在风险轨迹、保护隐私的纵向行为痕迹;以及一个基于浏览器的数据采集工具(以Chrome扩展形式实现),用于在YouTube播放过程中捕获自然交互视频遥测数据与微问答响应。已发布的基准数据集包含20万条来自200名用户、持续200天的模拟视频交互记录;涵盖9种行为谱型、含504个会话的符合模式化架构的合成部署数据集;18表关系模式;基线评估脚本;以及包括早期风险检测误差(ERDE)和检测时间(TTD)在内的时效性指标。我们强调,Cogniscope并非诊断系统,亦不宣称具备临床有效性。相反,它提供了一个可复用的测试平台,用于评估序列模型在真实人类受试者数据部署前,面对已知纵向挑战时的表现。实验表明,在受控先验条件下,简单的行为一致性信号可区分模拟风险状态,而基于规则部署的谱型分类仍具挑战性,这激励了学习型时序模型与稳健评估协议的研究。

0
下载
关闭预览

相关内容

一种Agent自主性风险评估框架 | 最新文献
专知会员服务
24+阅读 · 2025年10月24日
《人工智能军事系统的风险分级监管路径》
专知会员服务
23+阅读 · 2025年7月10日
《用于战斗机实时飞行性能预测和评估的人工智能框架》
《评估生成式人工智能的红队方法》最新37页长综述
专知会员服务
57+阅读 · 2024年5月27日
专知会员服务
64+阅读 · 2021年7月5日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员