自动评估论文 - 专知

会员服务 ·

自动评估

LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline

Arxiv

0+阅读 · 6月16日

Toward Accessible Psychotherapy Training Using AI-Driven Interactive Patient Avatars

Arxiv

0+阅读 · 6月16日

Evaluative Judgement in Teaching AI-based Translation: A Class-room Case Study of AI-Mediated Translation and Post-Editing

Arxiv

0+阅读 · 6月13日

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

Arxiv

0+阅读 · 5月23日

An Agentic Retrieval Framework for Autonomous Context-Aware Data Quality Assessment

Arxiv

0+阅读 · 5月15日

BacPrep: Lessons from Deploying an LLM-Based Bacalaureat Assessment Platform

Arxiv

0+阅读 · 4月9日

The Effect of Idea Elaboration on the Automatic Assessment of Idea Originality

Arxiv

0+阅读 · 4月22日

Pearmut: Human Evaluation of Translation Made Trivial

Arxiv

0+阅读 · 4月20日

Implicit Grading Bias in Large Language Models: How Writing Style Affects Automated Assessment Across Math, Programming, and Essay Tasks

Arxiv

0+阅读 · 3月19日

Incorporating Q&A Nuggets into Retrieval-Augmented Generation

Arxiv

0+阅读 · 3月27日

Argument Rarity-based Originality Assessment for AI-Assisted Writing

Arxiv

0+阅读 · 2月20日

Argument Rarity-based Originality Assessment for AI-Assisted Writing

Arxiv

0+阅读 · 2月23日

Enhancing Debunking Effectiveness through LLM-based Personality Adaptation

Arxiv

0+阅读 · 3月10日

Terminology Rarity Predicts Catastrophic Failure in LLM Translation of Low-Resource Ancient Languages: Evidence from Ancient Greek

Arxiv

0+阅读 · 2月27日

Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

Arxiv

0+阅读 · 3月9日

参考链接

微信扫码咨询专知VIP会员