成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
基准测试
关注
2
基准测试是指通过设计科学的测试方法、测试工具和测试系统,实现对一类测试对象的某项性能指标进行定量的和可对比的测试。
综合
百科
VIP
热门
动态
论文
精华
What Makes a Good LLM Agent for Real-world Penetration Testing?
Arxiv
0+阅读 · 2月19日
RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models
Arxiv
0+阅读 · 2月19日
ALPS: A Diagnostic Challenge Set for Arabic Linguistic & Pragmatic Reasoning
Arxiv
0+阅读 · 2月19日
Quantifying and Mitigating Socially Desirable Responding in LLMs: A Desirability-Matched Graded Forced-Choice Psychometric Study
Arxiv
0+阅读 · 2月19日
ABCD: All Biases Come Disguised
Arxiv
0+阅读 · 2月19日
BankMathBench: A Benchmark for Numerical Reasoning in Banking Scenarios
Arxiv
0+阅读 · 2月19日
Auditing Reciprocal Sentiment Alignment: Inversion Risk, Dialect Representation and Intent Misalignment in Transformers
Arxiv
0+阅读 · 2月19日
Estonian Native Large Language Model Benchmark
Arxiv
0+阅读 · 2月19日
Benchmarking the Effects of Object Pose Estimation and Reconstruction on Robotic Grasping Success
Arxiv
0+阅读 · 2月19日
MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation
Arxiv
0+阅读 · 2月19日
Defining and Evaluating Physical Safety for Large Language Models
Arxiv
0+阅读 · 2月19日
AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games
Arxiv
0+阅读 · 2月19日
VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models
Arxiv
0+阅读 · 2月18日
Measuring Mid-2025 LLM-Assistance on Novice Performance in Biology
Arxiv
0+阅读 · 2月18日
How Much Does Machine Identity Matter in Anomalous Sound Detection at Test Time?
Arxiv
0+阅读 · 2月18日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top