模型训练论文 - 专知

会员服务 ·

模型训练

Flatter Tokens are More Valuable for Speculative Draft Model Training

Arxiv

0+阅读 · 2月18日

ARO: A New Lens On Matrix Optimization For Large Models

Arxiv

0+阅读 · 2月9日

Supercharging Packet-level Network Simulation of Large Model Training via Memoization and Fast-Forwarding

Arxiv

0+阅读 · 2月11日

R-Diverse: Mitigating Diversity Illusion in Self-Play LLM Training

Arxiv

0+阅读 · 2月13日

Evolutionary Generative Optimization: Towards Fully Data-Driven Evolutionary Optimization via Generative Learning

Arxiv

0+阅读 · 2月13日

AlignTune: Modular Toolkit for Post-Training Alignment of Large Language Models

Arxiv

0+阅读 · 2月11日

AlignTune: Modular Toolkit for Post-Training Alignment of Large Language Models

Arxiv

0+阅读 · 2月10日

Provable Training Data Identification for Large Language Models

Arxiv

0+阅读 · 2月13日

Context Forcing: Consistent Autoregressive Video Generation with Long Context

Arxiv

0+阅读 · 2月5日

Horizon-LM: A RAM-Centric Architecture for LLM Training

Arxiv

0+阅读 · 2月5日

Horizon-LM: A RAM-Centric Architecture for LLM Training

Arxiv

0+阅读 · 2月4日

Reshaping Action Error Distributions for Reliable Vision-Language-Action Models

Arxiv

0+阅读 · 2月4日

Mano: Restriking Manifold Optimization for LLM Training

Arxiv

0+阅读 · 1月30日

Mixtera: A Data Plane for Foundation Model Training

Arxiv

0+阅读 · 2月1日

Why Inference in Large Models Becomes Decomposable After Training

Arxiv

0+阅读 · 2月2日

参考链接

微信扫码咨询专知VIP会员