成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
基准测试
关注
2
基准测试是指通过设计科学的测试方法、测试工具和测试系统,实现对一类测试对象的某项性能指标进行定量的和可对比的测试。
综合
百科
VIP
热门
动态
论文
精华
Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks
Arxiv
0+阅读 · 3月18日
PJB: A Reasoning-Aware Benchmark for Person-Job Retrieval
Arxiv
0+阅读 · 3月18日
AI Application Benchmarking: Power-Aware Performance Analysis for Vision and Language Models
Arxiv
0+阅读 · 3月17日
NeuroSim V1.5: Improved Software Backbone for Benchmarking Compute-in-Memory Accelerators with Device and Circuit-level Non-idealities
Arxiv
0+阅读 · 3月17日
SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models
Arxiv
0+阅读 · 3月17日
Mediocrity is the key for LLM as a Judge Anchor Selection
Arxiv
0+阅读 · 3月17日
TurnWise: The Gap between Single- and Multi-turn Language Model Capabilities
Arxiv
0+阅读 · 3月17日
Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic
Arxiv
0+阅读 · 3月17日
Boosting Text-to-Chart Retrieval through Training with Synthesized Semantic Insights
Arxiv
0+阅读 · 3月17日
VERINA: Benchmarking Verifiable Code Generation
Arxiv
0+阅读 · 3月16日
SmartSearch: How Ranking Beats Structure for Conversational Memory Retrieval
Arxiv
0+阅读 · 3月16日
Benchmarking Machine Learning Approaches for Polarization Mapping in Ferroelectrics Using 4D-STEM
Arxiv
0+阅读 · 3月16日
HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification
Arxiv
0+阅读 · 3月16日
SemBench: A Benchmark for Semantic Query Processing Engines
Arxiv
0+阅读 · 3月16日
Modeling and Benchmarking Spoken Dialogue Rewards with Modality and Colloquialness
Arxiv
0+阅读 · 3月16日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top