词元论文 - 专知

会员服务 ·

Small Initialization Matters for Large Language Models

Arxiv

0+阅读 · 6月16日

Examining the Limits of Word2Vec with Toki Pona

Arxiv

0+阅读 · 6月15日

AIMER: Calibration-Free Task-Agnostic MoE Expert Pruning

Arxiv

0+阅读 · 6月16日

Jacobian Scopes: token-level causal attributions in LLMs

Arxiv

0+阅读 · 6月15日

From Tokens to Policy: Causal and Interpretable Heterogeneous Treatment Effects Identification

Arxiv

0+阅读 · 6月15日

Next-Latent Prediction Transformers Learn Compact World Models

Arxiv

0+阅读 · 6月15日

Hierarchical Modeling of ICD Codes in EHR Foundation Models

Arxiv

0+阅读 · 6月13日

Entropy-Gated Latent Recursion

Arxiv

0+阅读 · 6月15日

IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

Arxiv

0+阅读 · 6月14日

The Answer Lies Within: Self-Derived Rewards Enable Explainable Relation Extraction

Arxiv

0+阅读 · 6月13日

STRIDE: Strategic Trajectory Reasoning via Discriminative Estimation for Verifiable Reinforcement Learning

Arxiv

0+阅读 · 6月14日

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

Arxiv

0+阅读 · 6月14日

LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization

Arxiv

0+阅读 · 6月14日

Context Compression Is Not One Thing: Readable Symbolic Re-expression vs. Coherent Summary at Matched Budget

Arxiv

0+阅读 · 6月12日

AdaMame: A Training Recipe for Adaptive Multilingual Reasoning

Arxiv

0+阅读 · 6月13日

参考链接

微信扫码咨询专知VIP会员