可复现性论文 - 专知

会员服务 ·

可复现性

StorRep: Storage Research Experiment Patterns on Chameleon Cloud and Trovi

Arxiv

0+阅读 · 6月15日

TACOMORE: Exploring a replicable prompting protocol for LLM-assisted corpus analysis

Arxiv

0+阅读 · 6月16日

ARVO: Atlas of Reproducible Vulnerabilities for Open-Source Software

Arxiv

0+阅读 · 6月15日

RecourseBench: A Modular Framework for Reproducible Algorithmic Recourse Evaluation

Arxiv

0+阅读 · 6月15日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月14日

Revisiting Vul-RAG: Reproducibility and Replicability of RAG-based Vulnerability Detection with Open-Weight Models

Arxiv

0+阅读 · 6月3日

An Agentic Approach Towards Replication Package Quality Evaluation

Arxiv

0+阅读 · 6月1日

Reproducibility is the New Copyleft: Defining AGI-oriented Reproducible Builds

Arxiv

0+阅读 · 6月2日

Domain-Conditioned Safety in Frontier Computer-Using Agents: A 793-Episode Browser Benchmark, a Coding-Domain Cross-Reference, and a Reproducibility Audit of Recent Red-Teaming

Arxiv

0+阅读 · 6月3日

Illusions of the Gold Standard: A Large-scale Analysis of Human Evaluation Protocols for Long-form Text Generation

Arxiv

0+阅读 · 6月9日

Paraphrase Brittleness in Production Retrieval-Augmented Commercial Recommendation: Reproducibility Below the Rerun-Stability Baseline

Arxiv

0+阅读 · 5月22日

Computationally Efficient Replicable Learning of Parities and Applications

Arxiv

0+阅读 · 5月28日

Toward Reproducible and Standardized Computer Architecture Simulation with gem5

Arxiv

0+阅读 · 3月20日

Cold-Starts in Generative Recommendation: A Reproducibility Study

Arxiv

0+阅读 · 4月6日

AI-Generated Code Is Not Reproducible (Yet): An Empirical Study of Dependency Gaps in LLM-Based Coding Agents

Arxiv

0+阅读 · 3月23日

参考链接

微信扫码咨询专知VIP会员