成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
微调
关注
3
综合
百科
VIP
热门
动态
论文
精华
OPERA: Online Data Pruning for Efficient Retrieval Model Adaptation
Arxiv
0+阅读 · 3月17日
Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination
Arxiv
0+阅读 · 3月18日
SYMDIREC: A Neuro-Symbolic Divide-Retrieve-Conquer Framework for Enhanced RTL Synthesis and Summarization
Arxiv
0+阅读 · 3月17日
DreamPlan: Efficient Reinforcement Fine-Tuning of Vision-Language Planners via Video World Models
Arxiv
0+阅读 · 3月17日
MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation
Arxiv
0+阅读 · 3月17日
Learning to Present: Inverse Specification Rewards for Agentic Slide Generation
Arxiv
0+阅读 · 3月17日
Diffusion-DRF: Free, Rich, and Differentiable Reward for Video Diffusion Fine-Tuning
Arxiv
0+阅读 · 3月17日
Readers Prefer Outputs of AI Trained on Copyrighted Books over Expert Human Writers
Arxiv
0+阅读 · 3月17日
An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU
Arxiv
0+阅读 · 3月17日
On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting
Arxiv
0+阅读 · 3月17日
TAUE: Training-free Noise Transplant and Cultivation Diffusion Model
Arxiv
0+阅读 · 3月17日
Self-Improving Language Models for Evolutionary Program Synthesis: A Case Study on ARC-AGI
Arxiv
0+阅读 · 3月16日
SloPal: A 60-Million-Word Slovak Parliamentary Corpus with Aligned Speech and Fine-Tuned ASR Models
Arxiv
0+阅读 · 3月16日
Fine-tuning RoBERTa for CVE-to-CWE Classification: A 125M Parameter Model Competitive with LLMs
Arxiv
0+阅读 · 3月16日
Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models
Arxiv
0+阅读 · 3月14日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top