成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
模型评估
关注
1732
机器学习系统设计系统评估标准
综合
百科
VIP
热门
动态
论文
精华
Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation
Arxiv
0+阅读 · 2月19日
A Scalable Framework for Evaluating Health Language Models
Arxiv
0+阅读 · 2月18日
GICDM: Mitigating Hubness for Reliable Distance-Based Generative Model Evaluation
Arxiv
0+阅读 · 2月18日
Enhanced Generative Model Evaluation with Clipped Density and Coverage
Arxiv
0+阅读 · 2月17日
Benchmarking Self-Supervised Models for Cardiac Ultrasound View Classification
Arxiv
0+阅读 · 2月17日
Empirical Modeling of Therapist-Client Dynamics in Psychotherapy Using LLM-Based Assessments
Arxiv
0+阅读 · 2月12日
Estimating Exam Item Difficulty with LLMs: A Benchmark on Brazil's ENEM Corpus
Arxiv
0+阅读 · 2月6日
DeepQuali: Initial results of a study on the use of large language models for assessing the quality of user stories
Arxiv
0+阅读 · 2月9日
Human- vs. AI-generated tests: dimensionality and information accuracy in latent trait evaluation
Arxiv
0+阅读 · 2月12日
InfiCoEvalChain: A Blockchain-Based Decentralized Framework for Collaborative LLM Evaluation
Arxiv
0+阅读 · 2月9日
Still Manual? Automated Linter Configuration via DSL-Based LLM Compilation of Coding Standards
Arxiv
0+阅读 · 2月8日
ExpressivityBench: Can LLMs Communicate Implicitly?
Arxiv
0+阅读 · 2月6日
Favia: Forensic Agent for Vulnerability-fix Identification and Analysis
Arxiv
0+阅读 · 2月13日
Are Two LLMs Better Than One? A Student-Teacher Dual-Head LLMs Architecture for Pharmaceutical Content Optimization
Arxiv
0+阅读 · 2月12日
Leveraging LLMs to support co-evolution between definitions and instances of textual DSLs: A Systematic Evaluation
Arxiv
0+阅读 · 2月12日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top