成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
基准
关注
1
综合
百科
VIP
热门
动态
论文
精华
Detecting the Machine: A Comprehensive Benchmark of AI-Generated Text Detectors Across Architectures, Domains, and Adversarial Conditions
Arxiv
0+阅读 · 3月18日
WebPII: Benchmarking Visual PII Detection for Computer-Use Agents
Arxiv
0+阅读 · 3月18日
Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks
Arxiv
0+阅读 · 3月18日
Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination
Arxiv
0+阅读 · 3月18日
PJB: A Reasoning-Aware Benchmark for Person-Job Retrieval
Arxiv
0+阅读 · 3月18日
UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models
Arxiv
0+阅读 · 3月18日
Graph-Native Cognitive Memory for AI Agents: Formal Belief Revision Semantics for Versioned Memory Architectures
Arxiv
0+阅读 · 3月18日
Visual Product Search Benchmark
Arxiv
0+阅读 · 3月17日
Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation
Arxiv
0+阅读 · 3月18日
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models
Arxiv
0+阅读 · 3月18日
AI Application Benchmarking: Power-Aware Performance Analysis for Vision and Language Models
Arxiv
0+阅读 · 3月17日
Surfacing Subtle Stereotypes: A Multilingual, Debate-Oriented Evaluation of Modern LLMs
Arxiv
0+阅读 · 3月17日
LUMINA: A Multi-Vendor Mammography Benchmark with Energy Harmonization Protocol
Arxiv
0+阅读 · 3月17日
SynthChain: A Synthetic Benchmark and Forensic Analysis of Advanced and Stealthy Software Supply Chain Attacks
Arxiv
0+阅读 · 3月17日
LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models
Arxiv
0+阅读 · 3月17日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top