测试集论文 - 专知

会员服务 ·

测试集

测试集，在AI领域多指机器学习模型训练完成后，用于其测试的数据，以观测其性能以及泛化能力。

RoSE: Round-robin Synthetic Data Evaluation for Selecting LLM Generators without Human Test Sets

Arxiv

0+阅读 · 6月15日

From Affect Prediction to Affect Forecasting: Evidence for Distinct Information Sources in Longitudinal Text

Arxiv

0+阅读 · 6月15日

Polyp-D2ATL: Deep Domain-Adaptive Transfer Learning for Colorectal Polyp Classification under Label Distribution Shift

Arxiv

0+阅读 · 6月12日

AERMANI-PLACE: Language Guided Object Placement with Aerial Manipulators

Arxiv

0+阅读 · 6月12日

Apply2Isar: Automatically Converting Isabelle/HOL Apply-Style Proofs to Structured Isar

Arxiv

0+阅读 · 5月30日

Spiking the training data to correct for test set contamination

Arxiv

0+阅读 · 6月8日

Robust Differential Evolution via Nonlinear Population Size Reduction and Adaptive Restart: The ARRDE Algorithm

Arxiv

0+阅读 · 5月26日

A Retrospective Benchmark of Spatiotemporal Covariates for Daily Active-Fire Detection in Cerrado Conservation Units

Arxiv

0+阅读 · 6月2日

CapBencher: Give Your LLM Benchmark a Built-in Alarm for Test-Set Overfitting

Arxiv

0+阅读 · 5月30日

Robust Differential Evolution via Nonlinear Population Size Reduction and Adaptive Restart: The ARRDE Algorithm

Arxiv

0+阅读 · 5月4日

ABD: Default Exception Abduction in Finite First Order Worlds

Arxiv

0+阅读 · 5月3日

CoverageBench: Evaluating Information Coverage across Tasks and Domains

Arxiv

0+阅读 · 3月20日

Randomness as Reference: Benchmark Metric for Optimization in Engineering

Arxiv

0+阅读 · 4月16日

Data-Prompt Co-Evolution: Growing Test Sets to Refine LLM Behavior

Arxiv

0+阅读 · 3月24日

AMALIA Technical Report: A Fully Open Source Large Language Model for European Portuguese

Arxiv

0+阅读 · 3月27日

参考链接

微信扫码咨询专知VIP会员