成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
基准测试
关注
2
基准测试是指通过设计科学的测试方法、测试工具和测试系统,实现对一类测试对象的某项性能指标进行定量的和可对比的测试。
综合
百科
VIP
热门
动态
论文
精华
ABD: Default Exception Abduction in Finite First Order Worlds
Arxiv
0+阅读 · 5月3日
Benchmarking local Hebbian learning rules for memory storage and prototype extraction
Arxiv
0+阅读 · 5月1日
ParseBench: A Document Parsing Benchmark for AI Agents
Arxiv
0+阅读 · 4月10日
ParseBench: A Document Parsing Benchmark for AI Agents
Arxiv
0+阅读 · 4月13日
Surfacing Subtle Stereotypes: A Multilingual, Debate-Oriented Evaluation of Modern LLMs
Arxiv
0+阅读 · 3月30日
Attention-Aligned Reasoning for Large Language Models
Arxiv
0+阅读 · 3月27日
The Path Not Taken: Duality in Reasoning about Program Execution
Arxiv
0+阅读 · 4月22日
LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning
Arxiv
0+阅读 · 4月15日
A Framework and Prototype for a Navigable Map of Datasets in Engineering Design and Systems Engineering
Arxiv
0+阅读 · 3月18日
Local Depth-Based Corrections to Maxmin Landmark Selection for Lazy Witness Persistence
Arxiv
0+阅读 · 4月21日
Target-Bench: Can Video World Models Achieve Mapless Path Planning with Semantic Targets?
Arxiv
0+阅读 · 4月15日
IndicDB -- Benchmarking Multilingual Text-to-SQL Capabilities in Indian Languages
Arxiv
0+阅读 · 4月15日
SPENCE: A Syntactic Probe for Detecting Contamination in NL2SQL Benchmarks
Arxiv
0+阅读 · 4月20日
PAI: Fast, Accurate, and Full Benchmark Performance Projection with AI
Arxiv
0+阅读 · 3月18日
Unmasking the Illusion of Embodied Reasoning in Vision-Language-Action Models
Arxiv
0+阅读 · 4月20日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top