评估指标论文 - 专知

会员服务 ·

评估指标

Evaluating Uplift Modeling under Structural Biases: Insights into Metric Stability and Model Robustness

Arxiv

0+阅读 · 6月16日

Evaluative Judgement in Teaching AI-based Translation: A Class-room Case Study of AI-Mediated Translation and Post-Editing

Arxiv

0+阅读 · 6月13日

Evaluating and Preserving Lexical Stress in English-to-Chinese Speech-to-Speech Translation

Arxiv

0+阅读 · 6月13日

PROVE: A Perceptual RemOVal cohErence Benchmark for Visual Media

Arxiv

0+阅读 · 5月14日

Unified Neural Scaling Laws

Arxiv

0+阅读 · 5月25日

Algorithmic algorithm development with LLMs: A Case Study on LLM-Usage for Contraction Order Optimization in Tensor Networks

Arxiv

0+阅读 · 6月1日

GENIE: A Fine-Grained Measure for Novelty

Arxiv

0+阅读 · 6月11日

Ges-QA: A Multidimensional Quality Assessment Dataset for Audio-to-3D Gesture Generation

Arxiv

0+阅读 · 3月26日

Position: Stop Chasing the C-index when Evaluating Survival Analysis Models

Arxiv

0+阅读 · 5月31日

How Much Does Machine Identity Matter in Anomalous Sound Detection at Test Time?

Arxiv

0+阅读 · 5月13日

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Arxiv

0+阅读 · 4月13日

Ran Score: a LLM-based Evaluation Score for Radiology Report Generation

Arxiv

0+阅读 · 3月24日

Pearmut: Human Evaluation of Translation Made Trivial

Arxiv

0+阅读 · 4月20日

Kinematic Optimization of Phalanx Length Ratios in Robotic Hands Using Potential Dexterity

Arxiv

0+阅读 · 4月22日

An Explainable Approach to Document-level Translation Evaluation with Topic Modeling

Arxiv

0+阅读 · 4月22日

参考链接

微信扫码咨询专知VIP会员