成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
探针
关注
0
综合
百科
VIP
热门
动态
论文
精华
Behavioral Steering in a 35B MoE Language Model via SAE-Decoded Probe Vectors: One Agency Axis, Not Five Traits
Arxiv
0+阅读 · 3月17日
Revisiting Model Stitching In the Foundation Model Era
Arxiv
0+阅读 · 3月16日
Detecting Privilege Escalation with Temporal Braid Groups
Arxiv
0+阅读 · 3月15日
Literary Narrative as Moral Probe : A Cross-System Framework for Evaluating AI Ethical Reasoning and Refusal Behavior
Arxiv
0+阅读 · 3月13日
MetaOthello: A Controlled Study of Multiple World Models in Transformers
Arxiv
0+阅读 · 2月26日
World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings
Arxiv
0+阅读 · 3月4日
Privacy Cards for Surfacing Mental Models and Exploring Privacy Concerns: A Case Study of Voice-First Ambient Interfaces with Older Adults
Arxiv
0+阅读 · 2月27日
Probe-then-Commit Multi-Objective Bandits: Theoretical Benefits of Limited Multi-Arm Feedback
Arxiv
0+阅读 · 2月20日
CalmReminder: A Design Probe for Parental Engagement with Children with Hyperactivity, Augmented by Real-Time Motion Sensing with a Watch
Arxiv
0+阅读 · 2月25日
Intrinsic Information Flow in Structureless NP Search
Arxiv
0+阅读 · 3月6日
Linear probes rely on textual evidence: Results from leakage mitigation studies in language models
Arxiv
0+阅读 · 3月9日
Prompting Underestimates LLM Capability for Time Series Classification
Arxiv
0+阅读 · 3月12日
Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement
Arxiv
0+阅读 · 3月6日
Detecting Privilege Escalation with Temporal Braid Groups
Arxiv
0+阅读 · 3月12日
"I Need to Find That One Chart": How Data Workers Navigate, Make Sense of, and Communicate Analytical Conversations
Arxiv
0+阅读 · 2月28日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top