成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
基准测试
关注
2
基准测试是指通过设计科学的测试方法、测试工具和测试系统,实现对一类测试对象的某项性能指标进行定量的和可对比的测试。
综合
百科
VIP
热门
动态
论文
精华
FCMBench: A Comprehensive Financial Credit Multimodal Benchmark for Real-world Applications
Arxiv
0+阅读 · 1月6日
The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization
Arxiv
0+阅读 · 1月6日
The MASK Benchmark: Disentangling Honesty From Accuracy in AI Systems
Arxiv
0+阅读 · 1月5日
DarkEQA: Benchmarking Vision-Language Models for Embodied Question Answering in Low-Light Indoor Environments
Arxiv
0+阅读 · 1月6日
SLR: Automated Synthesis for Scalable Logical Reasoning
Arxiv
0+阅读 · 1月6日
Benchmarking CNN and Transformer-Based Object Detectors for UAV Solar Panel Inspection
Arxiv
0+阅读 · 1月6日
WebCoderBench: Benchmarking Web Application Generation with Comprehensive and Interpretable Evaluation Metrics
Arxiv
0+阅读 · 1月5日
ChaosBench-Logic: A Benchmark for Logical and Symbolic Reasoning on Chaotic Dynamical Systems
Arxiv
0+阅读 · 1月5日
Benchmarking Deep Learning Convolutions on Energy-constrained CPUs
Arxiv
0+阅读 · 1月5日
Theory Trace Card: Theory-Driven Socio-Cognitive Evaluation of LLMs
Arxiv
0+阅读 · 1月5日
Grounded Test-Time Adaptation for LLM Agents
Arxiv
0+阅读 · 1月5日
Improved Runtime Guarantees for the SPEA2 Multi-Objective Optimizer
Arxiv
0+阅读 · 1月5日
RoboBPP: Benchmarking Robotic Online Bin Packing with Physics-based Simulation
Arxiv
0+阅读 · 1月5日
Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling
Arxiv
0+阅读 · 1月5日
CSCBench: A PVC Diagnostic Benchmark for Commodity Supply Chain Reasoning
Arxiv
0+阅读 · 1月5日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top