成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
基准
关注
1
综合
百科
VIP
热门
动态
论文
精华
What Makes a Good LLM Agent for Real-world Penetration Testing?
Arxiv
0+阅读 · 2月19日
Towards Cross-lingual Values Assessment: A Consensus-Pluralism Perspective
Arxiv
0+阅读 · 2月19日
EduEVAL-DB: A Role-Based Dataset for Pedagogical Risk Evaluation in Educational Explanations
Arxiv
0+阅读 · 2月19日
Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation
Arxiv
0+阅读 · 2月19日
CT-Bench: A Benchmark for Multimodal Lesion Understanding in Computed Tomography
Arxiv
0+阅读 · 2月19日
RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models
Arxiv
0+阅读 · 2月19日
FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information
Arxiv
0+阅读 · 2月19日
Sci2Pol: Evaluating and Fine-tuning LLMs on Scientific-to-Policy Brief Generation
Arxiv
0+阅读 · 2月19日
ALPS: A Diagnostic Challenge Set for Arabic Linguistic & Pragmatic Reasoning
Arxiv
0+阅读 · 2月19日
Quantifying and Mitigating Socially Desirable Responding in LLMs: A Desirability-Matched Graded Forced-Choice Psychometric Study
Arxiv
0+阅读 · 2月19日
Unmasking the Factual-Conceptual Gap in Persian Language Models
Arxiv
0+阅读 · 2月19日
Position: Evaluation of ECG Representations Must Be Fixed
Arxiv
0+阅读 · 2月19日
Beyond Needle(s) in the Embodied Haystack: Environment, Architecture, and Training Considerations for Long Context Reasoning
Arxiv
0+阅读 · 2月19日
MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks
Arxiv
0+阅读 · 2月19日
ABCD: All Biases Come Disguised
Arxiv
0+阅读 · 2月19日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top