微调论文 - 专知

会员服务 ·

OPERA: Online Data Pruning for Efficient Retrieval Model Adaptation

Arxiv

0+阅读 · 3月17日

Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination

Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination

Arxiv

0+阅读 · 3月18日

SYMDIREC: A Neuro-Symbolic Divide-Retrieve-Conquer Framework for Enhanced RTL Synthesis and Summarization

SYMDIREC: A Neuro-Symbolic Divide-Retrieve-Conquer Framework for Enhanced RTL Synthesis and Summarization

Arxiv

0+阅读 · 3月17日

DreamPlan: Efficient Reinforcement Fine-Tuning of Vision-Language Planners via Video World Models

Arxiv

0+阅读 · 3月17日

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Arxiv

0+阅读 · 3月17日

Learning to Present: Inverse Specification Rewards for Agentic Slide Generation

Arxiv

0+阅读 · 3月17日

Diffusion-DRF: Free, Rich, and Differentiable Reward for Video Diffusion Fine-Tuning

Arxiv

0+阅读 · 3月17日

Readers Prefer Outputs of AI Trained on Copyrighted Books over Expert Human Writers

Arxiv

0+阅读 · 3月17日

An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU

Arxiv

0+阅读 · 3月17日

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

Arxiv

0+阅读 · 3月17日

TAUE: Training-free Noise Transplant and Cultivation Diffusion Model

Arxiv

0+阅读 · 3月17日

Self-Improving Language Models for Evolutionary Program Synthesis: A Case Study on ARC-AGI

Arxiv

0+阅读 · 3月16日

SloPal: A 60-Million-Word Slovak Parliamentary Corpus with Aligned Speech and Fine-Tuned ASR Models

SloPal: A 60-Million-Word Slovak Parliamentary Corpus with Aligned Speech and Fine-Tuned ASR Models

Arxiv

0+阅读 · 3月16日

Fine-tuning RoBERTa for CVE-to-CWE Classification: A 125M Parameter Model Competitive with LLMs

Arxiv

0+阅读 · 3月16日

Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

Arxiv

0+阅读 · 3月14日

参考链接

微信扫码咨询专知VIP会员